PDE#3(ingesting)

PDE#3(ingesting)

あるメディア企業は、オンプレ Hadoop クラスタで毎日 30 TB のログを Spark で処理しています。クラスタは利用率が低い時間帯がありコスト超過です。既存の PySpark スクリプトをほぼそのまま使い、ジョブ単位で短命クラスタを起動して停止する構成に移行したいと考えています。最適な Google Cloud サービスはどれですか?

ディスカッション 0

正解:A

正解の根拠

Dataproc は Hadoop と Spark をマネージドで実行できるサービスで、PySpark スクリプトをほぼそのまま実行できます。Workflow Templates を使うと、ジョブ送信時にクラスタを起動し、完了後に自動削除する ephemeral 運用が可能で、コストを大幅に最適化できます。移行コストが低く要件に合致します。

サービス比較

項目Dataproc (C)Dataflow (A)
互換性既存 Spark/Hadoop 流用Beam へ書き換え必須
クラスタ管理Workflow で自動化サーバレス
移行コスト

不正解の理由

  • C: Dataflow への移行は Beam SDK 書き換えが必要で、既存スクリプト流用の要件に反します。
  • B: BigQuery への完全書き換えは PySpark ロジックを SQL に再設計する必要があり大規模な変更となります。
  • D: GKE Spark Operator は運用負荷が高く、Dataproc Workflow より複雑で要件に合いません。

参考:Dataproc Workflow Templates


コメント

コメント

コメントする

目次