Google Cloud認定 Professional Cloud DevOps Engineer WEB問題集

WEB問題集

Question#1(Professional Cloud DevOps Engineer)

最近、あるサービスが現在のローリングウィンドウ期間（直近の一定期間）において、エラーバジェット（エラー予算）を超過していることに気づきました。一方、製品チームは新しい機能のリリースを間近に控えています。Site Reliability Engineering (SRE) のプラクティスに従う場合、あなたはどのように行動すべきですか？

A. チームにエラーバジェットの不足を通知し、リリースがエラーバジェットをさらにリスクにさらさないよう、すべてのテストが成功していることを確認する。
B. チームにエラーバジェットを使い果たしたことを通知する。リリースの凍結（延期）、またはユーザーエクスペリエンスがわずかに低下することを許容するようチームと交渉する。
C. 状況をエスカレーションし、追加のエラーバジェットを要求する。
D. 製品に関連する他のメトリクスを確認し、エラーバジェットが残っている他の SLO を探す。そのエラーバジェットを再配分し、新機能のリリースを許可する。

正解と解説ディスカッション 0

正解：B

SRE の基本的な考え方において、エラーバジェットは「信頼性と開発スピードのバランスを保つための客観的な指標」として機能します。

1. エラーバジェットの役割

エラーバジェットを使い果たした（超過した）ということは、そのサービスの信頼性が許容範囲を下回ったことを意味します。この状態での新機能リリースは、さらなる不安定化を招くリスクが非常に高いため、SRE の原則では「リリースの停止（凍結）」が推奨されます。

2. なぜ選択肢 B が正しいのか

信頼性の優先: バジェットが尽きた場合、最優先事項は「新機能の追加」ではなく「信頼性の回復」に移ります。
ポリシーの遵守: リリースを凍結し、エンジニアのリソースをバグ修正やインフラの改善に充てることが、SRE の標準的なエラーバジェット・ポリシーです。

Question#2(Professional Cloud DevOps Engineer)

あなたは組織にポストモーテム（Postmortems）を導入しようとしています。ポストモーテムのプロセスが組織に好意的に受け入れられるようにしたいと考えています。あなたは何をすべきですか？（2つ選択してください）

A. 新入社員に対し、練習を通じてチームへのポストモーテムを実施するよう促す。
B. すべてのポストモーテムの実施を担当する、専用のチームを作成する。
C. 上級リーダーに対し、ポストモーテムの重要性を認め、参加するよう促す。
D. 効果的なポストモーテムを書くことが、報われ、称賛される習慣になるようにする。
E. 過去のポストモーテムを批判（添削）するためのフォーラムを組織に提供する。

正解と解説ディスカッション 0

正解：C, D

ポストモーテムの成功には、Google が提唱する**「Blamelee（非難ゼロ）」**の文化が不可欠です。

1. なぜ C と D が正しいのか

リーダーシップの関与（C）: 上級リーダーが参加し、「失敗を責めるのではなく、システムを改善する機会」として認めることで、現場のメンバーは安心して事実を報告できるようになります。リーダー自らが参加することは、その文化が組織にとって重要であるという強力なメッセージになります。
ポジティブな動機付け（D）: ポストモーテムの作成は時間と労力がかかる作業です。それを「単なる報告業務」ではなく、組織の知見を高める「価値ある貢献」として称賛（表彰や評価への反映）することで、自発的な協力が得やすくなります。

Question#3(Professional Cloud DevOps Engineer)

あなたは、複数の Google Kubernetes Engine (GKE) クラスターに対して、いくつかの制約テンプレート（Constraint Templates）を強制適用する必要があります。これらの制約には、Kubernetes API の制限などのポリシーパラメータが含まれます。あなたは、これらのポリシーパラメータを GitHub リポジトリに保存し、変更が発生した際に自動的に適用されるようにしなければなりません。どうすべきですか？

A. GitHub アクションを設定して、パラメータ変更時に Cloud Build をトリガーする。Cloud Build 内で gcloud CLI コマンドを実行して変更を適用する。
B. GitHub で変更があった際、ウェブフック（webhook）を使用して Anthos Service Mesh にリクエストを送信し、変更を適用する。
C. Anthos Config Management を GitHub リポジトリと連携するように構成する。リポジトリに変更があった際、Anthos Config Management を使用して変更を適用する。
D. Config Connector を GitHub リポジトリと連携するように構成する。リポジトリに変更があった際、Config Connector を使用して変更を適用する。

正解と解説ディスカッション 0

正解：C

この問題のキーワードは「Constraint Templates（制約テンプレート）」「GKE クラスター全体」「GitHub による自動適用（GitOps）」です。

1. なぜ C が正しいのか

Anthos Config Management (ACM) は、複数の Kubernetes クラスターに対して、一貫した構成やポリシーを GitOps スタイルで適用するためのサービスです。

Policy Controller: ACM の一部である Policy Controller を使用すると、まさに問題文にあるような「制約テンプレート（OPA: Open Policy Agent ベース）」を管理し、クラスター全体に強制適用（Enforce）できます。
Git 連携: GitHub などのリポジトリを「信頼できる唯一の情報源（Single Source of Truth）」として監視し、変更を自動的にクラスターへ同期する機能が備わっています。

Question#4(Professional Cloud DevOps Engineer)

あなたはあるサービスで発生しているインシデントの運用担当リーダー（Operations Lead）です。そのサービスは通常、容量の約 70% で稼働しています。1 つのノードがすべてのリクエストに対して 5xx エラーを返しており、顧客からのサポートへの問い合わせも目に見えて増加していることに気づきました。原因となっているノードを隔離して調査するために、ロードバランサーのプールから削除する必要があります。Google が推奨するプラクティスに従って、インシデントを管理し、ユーザーへの影響を最小限に抑えるにはどうすればよいですか？

A. 1. インシデントチームに自分の意図を伝える。 2. 負荷分析を行い、異常なノードを削除した後のトラフィック増加を残りのノードで処理できるか確認し、必要に応じて適切にスケーリングする。 3. 新しいノードが正常（Healthy）になったら、異常なノードからトラフィックをドレイン（排出）し、サービスから切り離す。
B. 1. インシデントチームに自分の意図を伝える。 2. 新しいノードをプールに追加し、そのノードが正常（Healthy）になるのを待つ。 3. 新しいノードでトラフィックが処理され始めたら、異常なノードからトラフィックをドレインし、サービスから切り離す。
C. 1. 異常なノードからトラフィックをドレインし、サービスから切り離す。 2. トラフィックを監視し、エラーが解消されたこと、およびプールの他のノードが適切に処理できていることを確認する。 3. 必要に応じてプールをスケーリングする。 4. インシデントチームに自分の行動を報告する。
D. 1. 異常なノードからトラフィックをドレインし、サービスから切り離す。 2. 新しいノードをプールに追加し、正常になるのを待ってからトラフィックを処理させる。 3. プールが健全で適切に処理できているか監視する。 4. インシデントチームに自分の行動を報告する。

正解と解説ディスカッション 0

正解：A

この問題のポイントは、**「インシデント管理におけるコミュニケーション」と「キャパシティ（容量）の確保」**の 2 点です。

1. なぜ A が正しいのか

コミュニケーション（手順 1）: Google の SRE プラクティスでは、インシデント対応中に独断で行動することは避けるべきとされています。まずチームに「これから何をするか」を共有（Communicate intent）することで、混乱を防ぎます。
キャパシティの事前確認（手順 2）: サービスが 70% のキャパシティで動いている場合、1 台を抜くことで残りのノードに負荷が集中し、連鎖的な過負荷（Cascading Failure）を引き起こすリスクがあります。切り離す前に負荷分析を行い、必要なら先にスケールアップしておくのが安全な手順です。
安全な切り離し（手順 3）: 十分なキャパシティを確保した上で、異常なノードを切り離します。

Question#5(Professional Cloud DevOps Engineer)

あなたは Google Cloud 上でネイティブに CI/CD パイプラインを構成しています。プリプロダクション（本番前）の GKE 環境でのビルドが、本番環境へ昇格（プロモート）される前に、自動的に負荷テストが実施されるようにしたいと考えています。このテストに合格したビルドのみが本番環境にデプロイされるようにする必要があります。Google が推奨するプラクティスに従う場合、Binary Authorization を使用してこのパイプラインをどのように構成すべきですか？

A. 負荷テストに合格したビルドに対して、リード品質保証（QA）エンジニアが個人の秘密鍵を使用して署名することでアテステーション（認証）を作成する。
B. 負荷テストに合格したビルドに対して、Cloud Key Management Service (Cloud KMS) に保存された秘密鍵と、Kubernetes Secret として保存されたサービスアカウントの JSON キーを使用してアテステーションを作成する。
C. 負荷テストに合格したビルドに対して、Cloud Key Management Service (Cloud KMS) に保存された秘密鍵を使用し、Workload Identity を通じて認証を行ってアテステーションを作成する。
D. 負荷テストに合格したビルドに対して、リード品質保証（QA）エンジニアが Cloud Key Management Service (Cloud KMS) に保存された鍵を使用して署名することでアテステーションを作成する。

正解と解説ディスカッション 0

正解：C

この問題のポイントは、**「自動化された CI/CD パイプライン」**において、いかに安全かつ Google の推奨する方法で認証（アテステーション）を行うかという点です。

1. なぜ C が正しいのか

自動化とセキュリティ: 本格的な CI/CD パイプラインでは、人間（エンジニア）がいちいち署名するのではなく、自動化されたプロセスがアテステーションを作成する必要があります。
Cloud KMS の利用: 署名に使用する秘密鍵は、安全なマネージドサービスである Cloud KMS で管理するのが標準です。
Workload Identity: これが最大のポイントです。GKE や Cloud Build などのワークロードが Google Cloud API（この場合は Cloud KMS）にアクセスする際、JSON キーなどの静的な認証情報を使わずに、短期間のみ有効なトークンを利用して安全に認証を行う手法として、Google が最も推奨（推奨プラクティス）している方法です。