WEB問題集
ある製造業の企業が、世界 12 拠点の工場から 1 秒あたり合計 80 万件の IoT センサーイベントを集約し、5 秒以内の異常検知ダッシュボードと、長期保管した生データに対する月次の機械学習バッチ学習の両方を実現したいと考えています。運用チームの人員が限られており、クラスタの容量計画やスケーリングに時間を割けません。Google Cloud で最適なアーキテクチャはどれですか。
正解:C
正解の根拠
Pub/Sub はグローバルにスケールするフルマネージドのメッセージングで、毎秒数十万件のイベント取り込みに対応します。Dataflow のストリーミングジョブは Autoscaling により運用負荷を最小化しつつ低レイテンシで異常検知できます。BigQuery にはホットデータを書き込み 5 秒以内の集計を提供し、Cloud Storage に同時シンクすることで月次バッチ ML 学習用の長期データレイクも構築できます。
サービス比較
| 項目 | 正解 (Pub/Sub + Dataflow) | 不正解 (Dataproc 永続) |
|---|---|---|
| 運用 | サーバーレス・自動スケール | クラスタ管理が必要 |
| 低レイテンシ | 秒オーダー | 調整次第 |
| ML 用長期保管 | Cloud Storage 連携 | HDFS は永続性に課題 |
不正解の理由
- A: Kafka と Spark を自前運用するため、容量計画やスケールの運用負荷が前提と矛盾します。
- B: Cloud SQL は秒間 80 万件のイベント書き込みに耐えるトランザクション DB ではなく、分析にも不向きです。
- D: 永続 Dataproc クラスタは運用負荷が高く、サーバーレスの要件に合致しません。
金融系の顧客が、過去 7 年分の取引履歴 (約 600 TB) をオンプレミスから Google Cloud に移行します。データはまず生のまま保持し、その後 BigQuery で分析しますが、規制上、生データには 7 年間の改ざん防止 (WORM) が要求されます。同時に分析側では取り込み後 1 時間以内にクエリ可能な状態にしたい場合、最も適切な設計はどれですか。
正解:C
正解の根拠
Cloud Storage の Bucket Lock と保持ポリシーを組み合わせることで、規定期間中はオブジェクトの削除や上書きを防ぐ WORM 相当の保護を実現できます。生データを Cloud Storage に保管し、BigQuery への Load Job により取り込み後 1 時間以内に分析可能にできます。生データの不変性と分析利便性の両立に最も適した設計です。
サービス比較
| 項目 | 正解 (Cloud Storage + Bucket Lock) | 不正解 (BigQuery スナップショット) |
|---|---|---|
| WORM | 保持ポリシーで強制 | 削除可能で不適 |
| 容量・コスト | Coldline/Archive で安価 | BigQuery ストレージ価格 |
| 原本性 | 生データを直接保持 | 派生コピー |
不正解の理由
- B: BigQuery スナップショットは元テーブル削除と独立しますが WORM 機能ではなく、改ざん防止要件を満たしません。
- A: Persistent Disk スナップショットはマシン用途で、長期データ保管とガバナンスには不向きです。
- D: Cloud SQL は 600 TB 規模の保管に不適で、WORM 制御もできません。
大手 EC 企業が新規データ基盤を設計しています。トランザクション処理は OLTP として 24/365 で 99.999% の可用性を持ち、地理的に離れた複数リージョンで強整合性を必要とします。月次の分析は別途 BigQuery で行います。OLTP 層に採用すべきサービスはどれですか。
正解:B
正解の根拠
Cloud Spanner のマルチリージョン構成は、複数リージョンにまたがる強整合性と 99.999% の SLA を提供する唯一のフルマネージド RDB です。グローバル分散トランザクションに対応するため、地理的に離れたユーザーへの OLTP 提供と高可用性を両立します。BigQuery への分析連携も標準で対応しています。
サービス比較
| 項目 | 正解 (Spanner マルチリージョン) | 不正解 (Cloud SQL HA) |
|---|---|---|
| 整合性 | 外部整合性 | 単一リージョン強整合 |
| SLA | 99.999% | 99.95% |
| 地理分散 | マルチリージョン対応 | 単一リージョン |
不正解の理由
- A: Cloud SQL HA は単一リージョン内のフェイルオーバーで、マルチリージョンの強整合性要件を満たしません。
- C: Bigtable は結果整合性で SQL トランザクションを持たないため OLTP 用途に不適です。
- D: Firestore はドキュメント DB で関係性のあるトランザクション処理には不向きです。
ある通信事業者が既存の Hadoop / Hive 資産を Google Cloud に移行します。HiveQL ジョブが約 200 本あり、最小限のコード変更で移行したいと考えています。同時に長期的には BigQuery に統合したい計画です。短期的な移行戦略として最適なのはどれですか。
正解:A
正解の根拠
Dataproc は Hadoop / Hive エコシステムをほぼそのまま実行できるマネージドサービスです。Dataproc Metastore へ Hive メタストアを移行することで、既存 HiveQL ジョブを最小限の変更で稼働させられます。短期的にリフト&シフトを実現し、長期的には Hive テーブルを BigLake / BigQuery 外部テーブル化して BigQuery 統合へ移行できる段階的アプローチが取れます。
サービス比較
| 項目 | 正解 (Dataproc + Metastore) | 不正解 (BigQuery 即時書換) |
|---|---|---|
| 移行コスト | 低 (HiveQL 流用) | 高 (200 本書換) |
| 互換性 | Hadoop 互換 | SQL 方言差異あり |
| 段階移行 | 可能 | ビッグバン |
不正解の理由
- B: 200 本の HiveQL を一括書換するのは時間とリスクが大きく、最小コードでの移行要件に反します。
- C: PySpark 書換と Dataflow 移植は工数が大きく、Hive エコシステム維持に不適です。
- D: Cloud Functions は短時間のイベント処理用途で、HiveQL バッチ処理には適しません。
あるヘルスケア企業が患者の電子カルテを分析基盤に取り込みます。データには氏名、生年月日、保険証番号などの個人情報が含まれ、分析者には匿名化後の状態でのみアクセス許可する必要があります。さらに分析環境は外部ネットワークへ流出しない設計が必須です。適切な設計要素を 2 つ選択してください。(2 つ選択)
(2つ選択)
正解:A, C
正解の根拠
Cloud DLP は PII の検出と、決定論的トークン化または日付シフトなどの匿名化変換を提供します。取り込み時に変換することで分析者は匿名化済みデータのみ参照できます。VPC Service Controls は BigQuery や Cloud Storage を含むマネージドサービスに対し境界 (perimeter) を構築し、データ流出を API レベルで防止します。両者の組合せで匿名化と境界防御が成立します。
サービス比較
| 項目 | DLP | VPC SC |
|---|---|---|
| 役割 | PII 検出・匿名化 | API 境界防御 |
| 適用層 | データ内容 | ネットワーク + API |
| 補完関係 | 内容の保護 | 外部持出防止 |
不正解の理由
- B: Authorized View は他データセットへのアクセス委譲の仕組みで、PII の匿名化機能は持ちません。
- D: Editor を全員付与すると最小権限原則に反し、データ漏えいリスクが大きく増えます。
