PDE#4(designing)

PDE#4(designing)

ある通信事業者が既存の Hadoop / Hive 資産を Google Cloud に移行します。HiveQL ジョブが約 200 本あり、最小限のコード変更で移行したいと考えています。同時に長期的には BigQuery に統合したい計画です。短期的な移行戦略として最適なのはどれですか。

ディスカッション 0

正解:A

正解の根拠

Dataproc は Hadoop / Hive エコシステムをほぼそのまま実行できるマネージドサービスです。Dataproc Metastore へ Hive メタストアを移行することで、既存 HiveQL ジョブを最小限の変更で稼働させられます。短期的にリフト&シフトを実現し、長期的には Hive テーブルを BigLake / BigQuery 外部テーブル化して BigQuery 統合へ移行できる段階的アプローチが取れます。

サービス比較

項目正解 (Dataproc + Metastore)不正解 (BigQuery 即時書換)
移行コスト低 (HiveQL 流用)高 (200 本書換)
互換性Hadoop 互換SQL 方言差異あり
段階移行可能ビッグバン

不正解の理由

  • B: 200 本の HiveQL を一括書換するのは時間とリスクが大きく、最小コードでの移行要件に反します。
  • C: PySpark 書換と Dataflow 移植は工数が大きく、Hive エコシステム維持に不適です。
  • D: Cloud Functions は短時間のイベント処理用途で、HiveQL バッチ処理には適しません。

参考:Dataproc Metastore 概要


コメント

コメント

コメントする

目次