Question#4(Professional Data Engineer)

Question#4(Professional Data Engineer)
あなたは Dataflow でバッチパイプラインをデプロイしています。このパイプラインは Cloud Storage からデータを読み取り、データを変換し、その後 BigQuery に書き込みます。セキュリティチームは、すべての Compute Engine インスタンスが内部 IP アドレスのみを使用し、外部 IP アドレスを使用しないことを要求する組織の制約を Google Cloud で有効にしました。あなたは何をすべきですか?
ディスカッション 0

正解:D

🎯 要件の分析

  1. 環境: Dataflow バッチパイプライン(Compute Engine ワーカーを使用)。

  2. データソース/シンク: Cloud Storage および BigQuery。

  3. 制約: Compute Engine インスタンス(Dataflow ワーカー)は内部 IP アドレスのみを使用し、外部 IP アドレスを持たない

  4. 課題: 外部 IP を持たないワーカーが、外部サービス(Cloud Storage や BigQuery は、技術的には Google のパブリックサービスエンドポイントを使用)に安全にアクセスできるようにする方法を見つけること。

🔑 選択肢の評価

  • Dataflow ワーカーと外部サービスのアクセス:

    • Dataflow ワーカーが外部 IP アドレスを持っていない場合、通常のインターネット経由で Google の API やサービス(Cloud Storage、BigQuery)にアクセスすることはできません。

  • Private Google Access (PGA):

    • Private Google Accessは、外部 IP アドレスを持たない Compute Engine インスタンスが、Google Cloud のサービス(Cloud Storage や BigQuery など)の外部 API にアクセスできるようにする VPC ネットワーク機能です。これは、トラフィックを VPC ネットワークから Google のネットワークエッジにルーティングし、そのトラフィックは Google のインフラストラクチャ内にとどまります。

    • 結論: 制約(内部 IP のみ)を満たしつつ、パイプラインの機能(Google サービスへのアクセス)を有効にするために、Private Google Access を有効にすることが必須かつ最も直接的な解決策です。

  • A. ネットワークタグ:

    • ネットワークタグはファイアウォールルールやルートの設定に使用されます。アクセス権限を付与するものではありませんし、外部 IP なしで外部サービスにアクセスする機能を提供するものでもありません。

  • B. ファイアウォールルール:

    • ファイアウォールルールは、VPC ネットワーク内のトラフィックを制御します。外部 IP を持たないインスタンスが外部サービスに到達する方法を変えるものではありません。また、Cloud Storage や BigQuery のエンドポイントは一般的に許可されている必要がありますが、問題の核心は IP アドレスの制約を克服することです。

  • C. VPC Service Controls (VPC SC):

    • VPC SC は、データ漏洩(データ流出)を防ぐためのセキュリティ境界(ペリメーター)を作成します。これは、データのアクセスを許可する方法ではなく、むしろアクセスを制限する方法です。

    • 外部 IP なしでサービスにアクセスするための基本的な接続メカニズム(PGA)を置き換えるものではありません。PGA は接続要件を満たすために必要であり、VPC SC は追加のセキュリティ層です。この問題の要求は、単に「アクセスできるようにする」ことであり、PGA で十分です。

したがって、組織の制約(外部 IP なし)を満たしつつ、必要な接続性(Google サービスへのアクセス)を確保するためには、サブネットワークで Private Google Access を有効にすることが唯一の解決策です。


コメント

コメント

コメントする

目次