【PCDE】WEB問題集:サイト信頼性エンジニアリング編

WEB問題集

PCDE#1(site-reliability)

SRE チームが新規サービスの SLO を定義しようとしています。サービスは Web API で、ユーザはレスポンス速度と可用性を重視します。最初に決定すべき指標として、もっとも適切なものはどれですか。

ディスカッション 0

正解:C

正解の根拠

SRE における SLI はユーザ体験を直接測定するべき指標であり、Web API ではリクエスト成功率とレイテンシが代表的な選択肢になります。

指標タイプSLI 適性
リクエスト成功率/レイテンシ高 (ユーザ視点)
CPU/Memory低 (インフラ視点)

不正解の理由

  • B: インフラ指標はユーザ体験を直接反映しないため SLI には不適切です。
  • A: デプロイ頻度は DORA 指標であり信頼性 SLI ではありません。
  • D: 過去件数は SLI ではなく事後集計に過ぎず継続的測定に向きません。

参考:Google SRE Book - SLO

PCDE#2(site-reliability)

Toil の特徴として SRE 本で定義されているものを 2 つ選択してください。

(2つ選択)

ディスカッション 0

正解:A, B

正解の根拠

Toil は手作業・繰り返し・自動化可能・戦術的・長期価値を生まないなどの特徴を持ちます。

特徴該当
手作業該当
長期価値なし該当
自動化可能該当 (不可能ではない)

不正解の理由

  • C: 創造性を要する作業は Toil ではなくエンジニアリング作業に分類されます。
  • D: Toil は本来自動化可能な作業を指すため不可能という定義は誤りです。

参考:Google SRE Book - Toil

PCDE#3(site-reliability)

SLO を 99.9% に設定したサービスで、月間エラーバジェットはおおよそ何分になりますか。30 日間の運用を前提とします。

ディスカッション 0

正解:C

正解の根拠

30 日 = 43200 分。99.9% SLO のエラーバジェットは 0.1% であり、43200 × 0.001 ≒ 43.2 分となります。

SLO月間バジェット
99.9%約 43.2 分
99.95%約 21.6 分
99.99%約 4.32 分

不正解の理由

  • A: 99.99% SLO のバジェットに相当する値であり 99.9% では誤りです。
  • B: 1% に相当する値で 99% SLO の場合の値です。
  • D: 10% 相当で SLO が 90% の場合の値となり現実的ではありません。

参考:SRE Workbook - Error Budget Policy

PCDE#4(site-reliability)

エラーバジェットが急速に消費されている状況で SRE チームが取るべきアクションとして適切なものはどれですか。

ディスカッション 0

正解:D

正解の根拠

エラーバジェット ポリシーでは、バジェット枯渇時に信頼性投資を優先しリリース凍結などのアクションを取ります。

状況推奨アクション
バジェット残あり機能リリース継続
バジェット枯渇信頼性投資・リリース凍結

不正解の理由

  • A: バジェット枯渇時の継続リリースは信頼性をさらに損なうため不適切です。
  • B: SLO の事後緩和は本来の目的を歪めるアンチパターンに該当します。
  • C: 監視停止は問題の不可視化につながり信頼性をさらに損ないます。

参考:SRE Workbook - Error Budget Policy

PCDE#5(site-reliability)

Postmortem (ポストモーテム) の作成において SRE 文化として推奨される姿勢はどれですか。

ディスカッション 0

正解:C

正解の根拠

SRE におけるポストモーテムは Blameless であることが原則で、再発防止と組織学習を最優先とします。

項目SRE 推奨
担当者責任追及非推奨
学習に焦点推奨
共有横断共有推奨

不正解の理由

  • B: 個人攻撃はインシデント報告を萎縮させ学習を阻害します。
  • A: 共有しないと組織全体の改善機会が失われ再発リスクが残ります。
  • D: 短時間復旧でも学習価値があるため省略は推奨されません。

参考:SRE Book - Postmortem Culture