PCD#455(managing)

PCD#455(managing)
Cloud Monitoring の Alert ポリシーを設計する際、誤検知を抑えつつ重大障害を取り逃さないために特に重要な設定項目を 2 つ選んでください。

(2つ選択)

正解:A, C

正解の根拠

Alert ポリシーの誤検知抑制と取り逃し防止は、duration(継続時間)・auto-close・対象フィルタ・アグリゲーション粒度の 4 つで決まります。継続時間を短くしすぎるとスパイクで誤発報し、長すぎると重大障害の検知が遅れます。フィルタとアグリゲーションは、対象を「サービス × リージョン」など業務単位にそろえることで、ノイズと信号を分離します。

主要設定の意義

設定役割典型値
duration瞬間スパイク除去3〜10 分
auto-close復旧後の自動クローズ30 分〜24 時間
filter対象リソースの限定service / namespace
aggregation系列の集約粒度per service per region

運用 Tips

  1. SLO に紐づくバーンレートアラートは duration を短め、長期予算アラートは長めに分けて設定します
  2. 通知チャネルは PagerDuty と Email を併用し、片側障害でも届くよう冗長化します
  3. incident の auto-close は障害復旧の検出ロジックと併せて調整します

不正解の理由

  • B: 通知経路を 1 つに絞ると、その経路自体の障害時に重大インシデントを取り逃すリスクが高まります。
  • D: ダッシュボードの装飾は人の視認性に依存するため、自動的なアラート品質改善には寄与しません。

参考:Alerting concepts in depth


コメント

コメント

コメントする

目次