PDE#4(designing)
ある通信事業者が既存の Hadoop / Hive 資産を Google Cloud に移行します。HiveQL ジョブが約 200 本あり、最小限のコード変更で移行したいと考えています。同時に長期的には BigQuery に統合したい計画です。短期的な移行戦略として最適なのはどれですか。
正解:A
正解の根拠
Dataproc は Hadoop / Hive エコシステムをほぼそのまま実行できるマネージドサービスです。Dataproc Metastore へ Hive メタストアを移行することで、既存 HiveQL ジョブを最小限の変更で稼働させられます。短期的にリフト&シフトを実現し、長期的には Hive テーブルを BigLake / BigQuery 外部テーブル化して BigQuery 統合へ移行できる段階的アプローチが取れます。
サービス比較
| 項目 | 正解 (Dataproc + Metastore) | 不正解 (BigQuery 即時書換) |
|---|---|---|
| 移行コスト | 低 (HiveQL 流用) | 高 (200 本書換) |
| 互換性 | Hadoop 互換 | SQL 方言差異あり |
| 段階移行 | 可能 | ビッグバン |
不正解の理由
- B: 200 本の HiveQL を一括書換するのは時間とリスクが大きく、最小コードでの移行要件に反します。
- C: PySpark 書換と Dataflow 移植は工数が大きく、Hive エコシステム維持に不適です。
- D: Cloud Functions は短時間のイベント処理用途で、HiveQL バッチ処理には適しません。

コメント