Question#4(Professional Cloud DevOps Engineer)
あなたはあるサービスで発生しているインシデントの運用担当リーダー(Operations Lead)です。そのサービスは通常、容量の約 70% で稼働しています。1 つのノードがすべてのリクエストに対して 5xx エラーを返しており、顧客からのサポートへの問い合わせも目に見えて増加していることに気づきました。原因となっているノードを隔離して調査するために、ロードバランサーのプールから削除する必要があります。Google が推奨するプラクティスに従って、インシデントを管理し、ユーザーへの影響を最小限に抑えるにはどうすればよいですか?
正解:A
この問題のポイントは、**「インシデント管理におけるコミュニケーション」と「キャパシティ(容量)の確保」**の 2 点です。
1. なぜ A が正しいのか
-
コミュニケーション(手順 1): Google の SRE プラクティスでは、インシデント対応中に独断で行動することは避けるべきとされています。まずチームに「これから何をするか」を共有(Communicate intent)することで、混乱を防ぎます。
-
キャパシティの事前確認(手順 2): サービスが 70% のキャパシティで動いている場合、1 台を抜くことで残りのノードに負荷が集中し、連鎖的な過負荷(Cascading Failure)を引き起こすリスクがあります。切り離す前に負荷分析を行い、必要なら先にスケールアップしておくのが安全な手順です。
-
安全な切り離し(手順 3): 十分なキャパシティを確保した上で、異常なノードを切り離します。

コメント