WEB問題集
PCDE#1(site-reliability)
SRE チームが新規サービスの SLO を定義しようとしています。サービスは Web API で、ユーザはレスポンス速度と可用性を重視します。最初に決定すべき指標として、もっとも適切なものはどれですか。
正解:C
正解の根拠
SRE における SLI はユーザ体験を直接測定するべき指標であり、Web API ではリクエスト成功率とレイテンシが代表的な選択肢になります。
| 指標タイプ | SLI 適性 |
|---|---|
| リクエスト成功率/レイテンシ | 高 (ユーザ視点) |
| CPU/Memory | 低 (インフラ視点) |
不正解の理由
- B: インフラ指標はユーザ体験を直接反映しないため SLI には不適切です。
- A: デプロイ頻度は DORA 指標であり信頼性 SLI ではありません。
- D: 過去件数は SLI ではなく事後集計に過ぎず継続的測定に向きません。
PCDE#2(site-reliability)
Toil の特徴として SRE 本で定義されているものを 2 つ選択してください。
(2つ選択)
正解:A, B
正解の根拠
Toil は手作業・繰り返し・自動化可能・戦術的・長期価値を生まないなどの特徴を持ちます。
| 特徴 | 該当 |
|---|---|
| 手作業 | 該当 |
| 長期価値なし | 該当 |
| 自動化可能 | 該当 (不可能ではない) |
不正解の理由
- C: 創造性を要する作業は Toil ではなくエンジニアリング作業に分類されます。
- D: Toil は本来自動化可能な作業を指すため不可能という定義は誤りです。
PCDE#3(site-reliability)
SLO を 99.9% に設定したサービスで、月間エラーバジェットはおおよそ何分になりますか。30 日間の運用を前提とします。
正解:C
正解の根拠
30 日 = 43200 分。99.9% SLO のエラーバジェットは 0.1% であり、43200 × 0.001 ≒ 43.2 分となります。
| SLO | 月間バジェット |
|---|---|
| 99.9% | 約 43.2 分 |
| 99.95% | 約 21.6 分 |
| 99.99% | 約 4.32 分 |
不正解の理由
- A: 99.99% SLO のバジェットに相当する値であり 99.9% では誤りです。
- B: 1% に相当する値で 99% SLO の場合の値です。
- D: 10% 相当で SLO が 90% の場合の値となり現実的ではありません。
PCDE#4(site-reliability)
エラーバジェットが急速に消費されている状況で SRE チームが取るべきアクションとして適切なものはどれですか。
正解:D
正解の根拠
エラーバジェット ポリシーでは、バジェット枯渇時に信頼性投資を優先しリリース凍結などのアクションを取ります。
| 状況 | 推奨アクション |
|---|---|
| バジェット残あり | 機能リリース継続 |
| バジェット枯渇 | 信頼性投資・リリース凍結 |
不正解の理由
- A: バジェット枯渇時の継続リリースは信頼性をさらに損なうため不適切です。
- B: SLO の事後緩和は本来の目的を歪めるアンチパターンに該当します。
- C: 監視停止は問題の不可視化につながり信頼性をさらに損ないます。
PCDE#5(site-reliability)
Postmortem (ポストモーテム) の作成において SRE 文化として推奨される姿勢はどれですか。
正解:C
正解の根拠
SRE におけるポストモーテムは Blameless であることが原則で、再発防止と組織学習を最優先とします。
| 項目 | SRE 推奨 |
|---|---|
| 担当者責任追及 | 非推奨 |
| 学習に焦点 | 推奨 |
| 共有 | 横断共有推奨 |
不正解の理由
- B: 個人攻撃はインシデント報告を萎縮させ学習を阻害します。
- A: 共有しないと組織全体の改善機会が失われ再発リスクが残ります。
- D: 短時間復旧でも学習価値があるため省略は推奨されません。
