【PDE】WEB問題集:データ処理システムの設計編

WEB問題集

PDE#1(designing)

ある製造業の企業が、世界 12 拠点の工場から 1 秒あたり合計 80 万件の IoT センサーイベントを集約し、5 秒以内の異常検知ダッシュボードと、長期保管した生データに対する月次の機械学習バッチ学習の両方を実現したいと考えています。運用チームの人員が限られており、クラスタの容量計画やスケーリングに時間を割けません。Google Cloud で最適なアーキテクチャはどれですか。

A. Compute Engine 上に Apache Kafka と Spark Structured Streaming を構築し、HDFS に永続保管して機械学習する構成
B. Cloud SQL のメインインスタンスへ全イベントを直接書込み、リードレプリカで分析クエリと ML を並行実行する
C. Pub/Sub と Dataflow で異常検知、BigQuery と Cloud Storage に並行書込
D. Dataproc の永続クラスタで Spark Streaming を 24 時間稼働させ、BigQuery 外部テーブル経由でデータを参照する構成

正解と解説ディスカッション 0

正解：C

正解の根拠

Pub/Sub はグローバルにスケールするフルマネージドのメッセージングで、毎秒数十万件のイベント取り込みに対応します。Dataflow のストリーミングジョブは Autoscaling により運用負荷を最小化しつつ低レイテンシで異常検知できます。BigQuery にはホットデータを書き込み 5 秒以内の集計を提供し、Cloud Storage に同時シンクすることで月次バッチ ML 学習用の長期データレイクも構築できます。

サービス比較

項目	正解 (Pub/Sub + Dataflow)	不正解 (Dataproc 永続)
運用	サーバーレス・自動スケール	クラスタ管理が必要
低レイテンシ	秒オーダー	調整次第
ML 用長期保管	Cloud Storage 連携	HDFS は永続性に課題

不正解の理由

A: Kafka と Spark を自前運用するため、容量計画やスケールの運用負荷が前提と矛盾します。
B: Cloud SQL は秒間 80 万件のイベント書き込みに耐えるトランザクション DB ではなく、分析にも不向きです。
D: 永続 Dataproc クラスタは運用負荷が高く、サーバーレスの要件に合致しません。

参考：データウェアハウスのリファレンスアーキテクチャ

PDE#2(designing)

金融系の顧客が、過去 7 年分の取引履歴 (約 600 TB) をオンプレミスから Google Cloud に移行します。データはまず生のまま保持し、その後 BigQuery で分析しますが、規制上、生データには 7 年間の改ざん防止 (WORM) が要求されます。同時に分析側では取り込み後 1 時間以内にクエリ可能な状態にしたい場合、最も適切な設計はどれですか。

A. Persistent Disk のスナップショットを 7 年間保持して原本として扱い、必要時にディスクから復元して読み出す
B. BigQuery のテーブルスナップショットを毎日生成し、専用データセットに 7 年間保持する運用にする
C. Cloud Storage に Bucket Lock を設定し BigQuery へ Load
D. Cloud SQL に 7 年分のトランザクションを保管し、BigQuery からフェデレーテッドクエリで参照する構成にする

正解と解説ディスカッション 0

正解：C

正解の根拠

Cloud Storage の Bucket Lock と保持ポリシーを組み合わせることで、規定期間中はオブジェクトの削除や上書きを防ぐ WORM 相当の保護を実現できます。生データを Cloud Storage に保管し、BigQuery への Load Job により取り込み後 1 時間以内に分析可能にできます。生データの不変性と分析利便性の両立に最も適した設計です。

サービス比較

項目	正解 (Cloud Storage + Bucket Lock)	不正解 (BigQuery スナップショット)
WORM	保持ポリシーで強制	削除可能で不適
容量・コスト	Coldline/Archive で安価	BigQuery ストレージ価格
原本性	生データを直接保持	派生コピー

不正解の理由

B: BigQuery スナップショットは元テーブル削除と独立しますが WORM 機能ではなく、改ざん防止要件を満たしません。
A: Persistent Disk スナップショットはマシン用途で、長期データ保管とガバナンスには不向きです。
D: Cloud SQL は 600 TB 規模の保管に不適で、WORM 制御もできません。

参考：Cloud Storage Bucket Lock

PDE#3(designing)

大手 EC 企業が新規データ基盤を設計しています。トランザクション処理は OLTP として 24/365 で 99.999% の可用性を持ち、地理的に離れた複数リージョンで強整合性を必要とします。月次の分析は別途 BigQuery で行います。OLTP 層に採用すべきサービスはどれですか。

A. Cloud SQL の High Availability 構成を別リージョンへレプリケーション
B. Spanner マルチリージョン構成
C. Bigtable のレプリケーション付きマルチクラスタルーティング構成
D. Firestore Native モードのマルチリージョン展開で構築

正解と解説ディスカッション 0

正解：B

正解の根拠

Cloud Spanner のマルチリージョン構成は、複数リージョンにまたがる強整合性と 99.999% の SLA を提供する唯一のフルマネージド RDB です。グローバル分散トランザクションに対応するため、地理的に離れたユーザーへの OLTP 提供と高可用性を両立します。BigQuery への分析連携も標準で対応しています。

サービス比較

項目	正解 (Spanner マルチリージョン)	不正解 (Cloud SQL HA)
整合性	外部整合性	単一リージョン強整合
SLA	99.999%	99.95%
地理分散	マルチリージョン対応	単一リージョン

不正解の理由

A: Cloud SQL HA は単一リージョン内のフェイルオーバーで、マルチリージョンの強整合性要件を満たしません。
C: Bigtable は結果整合性で SQL トランザクションを持たないため OLTP 用途に不適です。
D: Firestore はドキュメント DB で関係性のあるトランザクション処理には不向きです。

参考：Spanner インスタンス構成

PDE#4(designing)

ある通信事業者が既存の Hadoop / Hive 資産を Google Cloud に移行します。HiveQL ジョブが約 200 本あり、最小限のコード変更で移行したいと考えています。同時に長期的には BigQuery に統合したい計画です。短期的な移行戦略として最適なのはどれですか。

A. Dataproc に Hive ジョブをリフト、メタストア統合
B. 全 HiveQL を即座に標準 SQL に書換え BigQuery に一括移行し既存ジョブを廃棄する
C. Cloud Composer から PySpark に書換えて Dataflow テンプレートで実行する移行アプローチを採用する
D. Cloud Functions と Cloud Run を組み合わせて HiveQL の挙動を逐次シミュレートする独自実装に置換える

正解と解説ディスカッション 0

正解：A

正解の根拠

Dataproc は Hadoop / Hive エコシステムをほぼそのまま実行できるマネージドサービスです。Dataproc Metastore へ Hive メタストアを移行することで、既存 HiveQL ジョブを最小限の変更で稼働させられます。短期的にリフト&シフトを実現し、長期的には Hive テーブルを BigLake / BigQuery 外部テーブル化して BigQuery 統合へ移行できる段階的アプローチが取れます。

サービス比較

項目	正解 (Dataproc + Metastore)	不正解 (BigQuery 即時書換)
移行コスト	低 (HiveQL 流用)	高 (200 本書換)
互換性	Hadoop 互換	SQL 方言差異あり
段階移行	可能	ビッグバン

不正解の理由

B: 200 本の HiveQL を一括書換するのは時間とリスクが大きく、最小コードでの移行要件に反します。
C: PySpark 書換と Dataflow 移植は工数が大きく、Hive エコシステム維持に不適です。
D: Cloud Functions は短時間のイベント処理用途で、HiveQL バッチ処理には適しません。

参考：Dataproc Metastore 概要

PDE#5(designing)

あるヘルスケア企業が患者の電子カルテを分析基盤に取り込みます。データには氏名、生年月日、保険証番号などの個人情報が含まれ、分析者には匿名化後の状態でのみアクセス許可する必要があります。さらに分析環境は外部ネットワークへ流出しない設計が必須です。適切な設計要素を 2 つ選択してください。(2 つ選択)

（2つ選択）

A. Cloud DLP で PII を検出しトークン化して BQ へ
B. BigQuery の Authorized View でテーブル原本を社内全員に直接公開する運用にする
C. VPC SC 境界で BigQuery と GCS を閉域化
D. IAM の Editor 権限を分析者全員に付与してアクセス容易性を確保する

正解と解説ディスカッション 0

正解：A, C

正解の根拠

Cloud DLP は PII の検出と、決定論的トークン化または日付シフトなどの匿名化変換を提供します。取り込み時に変換することで分析者は匿名化済みデータのみ参照できます。VPC Service Controls は BigQuery や Cloud Storage を含むマネージドサービスに対し境界 (perimeter) を構築し、データ流出を API レベルで防止します。両者の組合せで匿名化と境界防御が成立します。

サービス比較

項目	DLP	VPC SC
役割	PII 検出・匿名化	API 境界防御
適用層	データ内容	ネットワーク + API
補完関係	内容の保護	外部持出防止

不正解の理由

B: Authorized View は他データセットへのアクセス委譲の仕組みで、PII の匿名化機能は持ちません。
D: Editor を全員付与すると最小権限原則に反し、データ漏えいリスクが大きく増えます。

参考：VPC Service Controls 概要