Question#1(Professional Cloud DevOps Engineer)
最近、あるサービスが現在のローリングウィンドウ期間(直近の一定期間)において、エラーバジェット(エラー予算)を超過していることに気づきました。一方、製品チームは新しい機能のリリースを間近に控えています。Site Reliability Engineering (SRE) のプラクティスに従う場合、あなたはどのように行動すべきですか?
正解:B
SRE の基本的な考え方において、エラーバジェットは「信頼性と開発スピードのバランスを保つための客観的な指標」として機能します。
1. エラーバジェットの役割
エラーバジェットを使い果たした(超過した)ということは、そのサービスの信頼性が許容範囲を下回ったことを意味します。この状態での新機能リリースは、さらなる不安定化を招くリスクが非常に高いため、SRE の原則では「リリースの停止(凍結)」が推奨されます。
2. なぜ選択肢 B が正しいのか
-
信頼性の優先: バジェットが尽きた場合、最優先事項は「新機能の追加」ではなく「信頼性の回復」に移ります。
-
ポリシーの遵守: リリースを凍結し、エンジニアのリソースをバグ修正やインフラの改善に充てることが、SRE の標準的なエラーバジェット・ポリシーです。

コメント