Question#4(Professional Cloud DevOps Engineer)

あなたはあるサービスで発生しているインシデントの運用担当リーダー（Operations Lead）です。そのサービスは通常、容量の約 70% で稼働しています。1 つのノードがすべてのリクエストに対して 5xx エラーを返しており、顧客からのサポートへの問い合わせも目に見えて増加していることに気づきました。原因となっているノードを隔離して調査するために、ロードバランサーのプールから削除する必要があります。Google が推奨するプラクティスに従って、インシデントを管理し、ユーザーへの影響を最小限に抑えるにはどうすればよいですか？

A. 1. インシデントチームに自分の意図を伝える。 2. 負荷分析を行い、異常なノードを削除した後のトラフィック増加を残りのノードで処理できるか確認し、必要に応じて適切にスケーリングする。 3. 新しいノードが正常（Healthy）になったら、異常なノードからトラフィックをドレイン（排出）し、サービスから切り離す。
B. 1. インシデントチームに自分の意図を伝える。 2. 新しいノードをプールに追加し、そのノードが正常（Healthy）になるのを待つ。 3. 新しいノードでトラフィックが処理され始めたら、異常なノードからトラフィックをドレインし、サービスから切り離す。
C. 1. 異常なノードからトラフィックをドレインし、サービスから切り離す。 2. トラフィックを監視し、エラーが解消されたこと、およびプールの他のノードが適切に処理できていることを確認する。 3. 必要に応じてプールをスケーリングする。 4. インシデントチームに自分の行動を報告する。
D. 1. 異常なノードからトラフィックをドレインし、サービスから切り離す。 2. 新しいノードをプールに追加し、正常になるのを待ってからトラフィックを処理させる。 3. プールが健全で適切に処理できているか監視する。 4. インシデントチームに自分の行動を報告する。

正解と解説ディスカッション 0

正解：A

この問題のポイントは、**「インシデント管理におけるコミュニケーション」と「キャパシティ（容量）の確保」**の 2 点です。

1. なぜ A が正しいのか

コミュニケーション（手順 1）: Google の SRE プラクティスでは、インシデント対応中に独断で行動することは避けるべきとされています。まずチームに「これから何をするか」を共有（Communicate intent）することで、混乱を防ぎます。
キャパシティの事前確認（手順 2）: サービスが 70% のキャパシティで動いている場合、1 台を抜くことで残りのノードに負荷が集中し、連鎖的な過負荷（Cascading Failure）を引き起こすリスクがあります。切り離す前に負荷分析を行い、必要なら先にスケールアップしておくのが安全な手順です。
安全な切り離し（手順 3）: 十分なキャパシティを確保した上で、異常なノードを切り離します。

Question#4(Professional Cloud DevOps Engineer)

1. なぜ A が正しいのか

コメント

コメント

コメントするコメントをキャンセル

1. なぜ A が正しいのか

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル