【PCDE】WEB問題集:インシデント管理編

WEB問題集

PCDE#1(incident-management)

本番サービスで全リージョン障害が発生しました。最初に着手すべきプロセスはどれですか。

ディスカッション 0

正解:C

正解の根拠

インシデント対応プロセスは Detect → Respond → Mitigate → Resolve の順で進めます。検知が起点です。

段階目的
Detect異常を発見
Respond応答開始
Mitigate影響緩和
Resolve根本解消

不正解の理由

  • Postmortem は Resolve 後に行います。
  • SLO 再設計はインシデント中の作業ではありません。
  • オンコール再編成は別タスクです。

参考:Google SRE Managing Incidents

PCDE#2(incident-management)

Incident Commander (IC) の主たる責務として最も適切なものはどれですか。

ディスカッション 0

正解:C

正解の根拠

IC はインシデント全体の責任者で、役割割当と意思決定を担います。

役割責務
IC全体統括
Ops Lead技術対応
Comms Lead外部連絡

不正解の理由

  • 復旧コマンド実行は Ops Lead の役割です。
  • 顧客連絡は Comms Lead の責務です。
  • ログ収集は Ops チームの作業です。

参考:SRE Book Managing Incidents

PCDE#3(incident-management)

ICS (Incident Command System) を採用する利点として正しいものを2つ選んでください。

(2つ選択)

ディスカッション 0

正解:A, B

正解の根拠

ICS は緊急時の指揮命令系統を標準化し、規模に応じて拡張可能な体制を提供します。

要素意味
役割IC/Ops/Comms 等
スケール小〜大規模対応

不正解の理由

  • コード品質は ICS の対象外です。
  • 課金削減は無関係です。
  • CI 高速化はビルド領域の話です。

参考:SRE Book ICS

PCDE#4(incident-management)

Sev1 と分類すべきインシデントの典型例はどれですか。

ディスカッション 0

正解:A

正解の根拠

Sev1 は最重大度で、サービス全停止や広範な顧客影響を伴うものを指します。

重大度
Sev1全顧客影響
Sev2機能の一部停止
Sev3軽微な不具合

不正解の理由

  • 表示崩れは Sev3 相当です。
  • 社内 wiki は本番外で重要度が低いです。
  • ステージング失敗は本番影響がありません。

参考:PagerDuty Severity Levels

PCDE#5(incident-management)

Communications Lead の役割として最も適切なものはどれですか。

ディスカッション 0

正解:C

正解の根拠

Comms Lead は内外関係者への情報発信と Status Page 更新を担当します。

対象手段
顧客Status Page
社内Slack

不正解の理由

  • DB 修正は Ops Lead の作業です。
  • Terraform 適用は技術対応です。
  • Pod 再起動も技術対応に属します。

参考:PagerDuty IC Training