【PCDE】WEB問題集:サイト信頼性エンジニアリング編 | CloudCamp

WEB問題集

PCDE#1(site-reliability)

SRE チームが新規サービスの SLO を定義しようとしています。サービスは Web API で、ユーザはレスポンス速度と可用性を重視します。最初に決定すべき指標として、もっとも適切なものはどれですか。

A. 開発チームが運用しやすい指標としてデプロイ頻度を SLI に設定します
B. インフラ層の CPU 使用率と Memory 使用率およびディスク IO を主要な SLI として継続的に採用します
C. ユーザ体験を反映する SLI を選定します
D. 過去のインシデント件数を集計して SLI とします

正解：C

正解の根拠

SRE における SLI はユーザ体験を直接測定するべき指標であり、Web API ではリクエスト成功率とレイテンシが代表的な選択肢になります。

指標タイプ	SLI 適性
リクエスト成功率／レイテンシ	高 (ユーザ視点)
CPU／Memory	低 (インフラ視点)

不正解の理由

B: インフラ指標はユーザ体験を直接反映しないため SLI には不適切です。
A: デプロイ頻度は DORA 指標であり信頼性 SLI ではありません。
D: 過去件数は SLI ではなく事後集計に過ぎず継続的測定に向きません。

参考：Google SRE Book - SLO

PCDE#2(site-reliability)

Toil の特徴として SRE 本で定義されているものを 2 つ選択してください。

（2つ選択）

A. 手作業であり繰り返し行われる
B. 長期的な価値を生み出さない
C. 高度な創造性を要する
D. 自動化が技術的に不可能である

正解と解説ディスカッション 0

正解：A, B

正解の根拠

Toil は手作業・繰り返し・自動化可能・戦術的・長期価値を生まないなどの特徴を持ちます。

特徴	該当
手作業	該当
長期価値なし	該当
自動化可能	該当 (不可能ではない)

不正解の理由

C: 創造性を要する作業は Toil ではなくエンジニアリング作業に分類されます。
D: Toil は本来自動化可能な作業を指すため不可能という定義は誤りです。

参考：Google SRE Book - Toil

PCDE#3(site-reliability)

SLO を 99.9% に設定したサービスで、月間エラーバジェットはおおよそ何分になりますか。30 日間の運用を前提とします。

A. 約 4.3 分
B. 約 432 分
C. 約 43.2 分
D. 約 4320 分

正解と解説ディスカッション 0

正解：C

正解の根拠

30 日 = 43200 分。99.9% SLO のエラーバジェットは 0.1% であり、43200 × 0.001 ≒ 43.2 分となります。

SLO	月間バジェット
99.9%	約 43.2 分
99.95%	約 21.6 分
99.99%	約 4.32 分

不正解の理由

A: 99.99% SLO のバジェットに相当する値であり 99.9% では誤りです。
B: 1% に相当する値で 99% SLO の場合の値です。
D: 10% 相当で SLO が 90% の場合の値となり現実的ではありません。

参考：SRE Workbook - Error Budget Policy

PCDE#4(site-reliability)

エラーバジェットが急速に消費されている状況で SRE チームが取るべきアクションとして適切なものはどれですか。

A. 新機能リリースを継続して市場投入速度を優先します
B. SLO の数値設定を後付けで意図的に緩和することでバジェット消費を表面的に抑え、達成率レポート上の体裁を整えます
C. 監視を停止してアラート疲れを解消します
D. 信頼性向上施策を優先しリリースの一時凍結を検討します

正解と解説ディスカッション 0

正解：D

正解の根拠

エラーバジェットポリシーでは、バジェット枯渇時に信頼性投資を優先しリリース凍結などのアクションを取ります。

状況	推奨アクション
バジェット残あり	機能リリース継続
バジェット枯渇	信頼性投資・リリース凍結

不正解の理由

A: バジェット枯渇時の継続リリースは信頼性をさらに損なうため不適切です。
B: SLO の事後緩和は本来の目的を歪めるアンチパターンに該当します。
C: 監視停止は問題の不可視化につながり信頼性をさらに損ないます。

参考：SRE Workbook - Error Budget Policy

PCDE#5(site-reliability)

Postmortem (ポストモーテム) の作成において SRE 文化として推奨される姿勢はどれですか。

A. インシデント詳細は社内秘とし他チームには共有しません
B. 原因となった担当者を明確に特定して責任追及を行い再発防止策を担当者に課します
C. Blameless 文化に基づき学習に焦点を当てます
D. 短時間で復旧した場合はポストモーテム作成を省略します

正解と解説ディスカッション 0

正解：C

正解の根拠

SRE におけるポストモーテムは Blameless であることが原則で、再発防止と組織学習を最優先とします。

項目	SRE 推奨
担当者責任追及	非推奨
学習に焦点	推奨
共有	横断共有推奨

不正解の理由

B: 個人攻撃はインシデント報告を萎縮させ学習を阻害します。
A: 共有しないと組織全体の改善機会が失われ再発リスクが残ります。
D: 短時間復旧でも学習価値があるため省略は推奨されません。

参考：SRE Book - Postmortem Culture