PCD#455(managing)
Cloud Monitoring の Alert ポリシーを設計する際、誤検知を抑えつつ重大障害を取り逃さないために特に重要な設定項目を 2 つ選んでください。
(2つ選択)
正解:A, C
正解の根拠
Alert ポリシーの誤検知抑制と取り逃し防止は、duration(継続時間)・auto-close・対象フィルタ・アグリゲーション粒度の 4 つで決まります。継続時間を短くしすぎるとスパイクで誤発報し、長すぎると重大障害の検知が遅れます。フィルタとアグリゲーションは、対象を「サービス × リージョン」など業務単位にそろえることで、ノイズと信号を分離します。
主要設定の意義
| 設定 | 役割 | 典型値 |
|---|---|---|
| duration | 瞬間スパイク除去 | 3〜10 分 |
| auto-close | 復旧後の自動クローズ | 30 分〜24 時間 |
| filter | 対象リソースの限定 | service / namespace |
| aggregation | 系列の集約粒度 | per service per region |
運用 Tips
- SLO に紐づくバーンレートアラートは duration を短め、長期予算アラートは長めに分けて設定します
- 通知チャネルは PagerDuty と Email を併用し、片側障害でも届くよう冗長化します
- incident の auto-close は障害復旧の検出ロジックと併せて調整します
不正解の理由
- B: 通知経路を 1 つに絞ると、その経路自体の障害時に重大インシデントを取り逃すリスクが高まります。
- D: ダッシュボードの装飾は人の視認性に依存するため、自動的なアラート品質改善には寄与しません。

コメント