PCD#455(managing)

PCD#455(managing)

Cloud Monitoring の Alert ポリシーを設計する際、誤検知を抑えつつ重大障害を取り逃さないために特に重要な設定項目を 2 つ選んでください。

（2つ選択）

A. 条件の duration と auto-close 閾値を業務影響に合わせて調整します
B. 通知チャネルを 1 つに固定したうえで、別経路の連絡先は管理対象から削除して運用を一本化する方針を採用します
C. リソースフィルタとアグリゲーションを業務単位にそろえます
D. ダッシュボードの背景色を赤系に変更し、視認性を高めることで運用者の早期気付きを促す方針を採用します

正解：A, C

正解の根拠

Alert ポリシーの誤検知抑制と取り逃し防止は、duration(継続時間)・auto-close・対象フィルタ・アグリゲーション粒度の 4 つで決まります。継続時間を短くしすぎるとスパイクで誤発報し、長すぎると重大障害の検知が遅れます。フィルタとアグリゲーションは、対象を「サービス × リージョン」など業務単位にそろえることで、ノイズと信号を分離します。

主要設定の意義

設定	役割	典型値
duration	瞬間スパイク除去	3〜10 分
auto-close	復旧後の自動クローズ	30 分〜24 時間
filter	対象リソースの限定	service / namespace
aggregation	系列の集約粒度	per service per region

運用 Tips

SLO に紐づくバーンレートアラートは duration を短め、長期予算アラートは長めに分けて設定します
通知チャネルは PagerDuty と Email を併用し、片側障害でも届くよう冗長化します
incident の auto-close は障害復旧の検出ロジックと併せて調整します

不正解の理由

B: 通知経路を 1 つに絞ると、その経路自体の障害時に重大インシデントを取り逃すリスクが高まります。
D: ダッシュボードの装飾は人の視認性に依存するため、自動的なアラート品質改善には寄与しません。

参考：Alerting concepts in depth

正解の根拠

主要設定の意義

運用 Tips

不正解の理由

コメント

コメント

コメントするコメントをキャンセル

正解の根拠

主要設定の意義

運用 Tips

不正解の理由

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル