PDE#3(ingesting)
あるメディア企業は、オンプレ Hadoop クラスタで毎日 30 TB のログを Spark で処理しています。クラスタは利用率が低い時間帯がありコスト超過です。既存の PySpark スクリプトをほぼそのまま使い、ジョブ単位で短命クラスタを起動して停止する構成に移行したいと考えています。最適な Google Cloud サービスはどれですか?
正解:A
正解の根拠
Dataproc は Hadoop と Spark をマネージドで実行できるサービスで、PySpark スクリプトをほぼそのまま実行できます。Workflow Templates を使うと、ジョブ送信時にクラスタを起動し、完了後に自動削除する ephemeral 運用が可能で、コストを大幅に最適化できます。移行コストが低く要件に合致します。
サービス比較
| 項目 | Dataproc (C) | Dataflow (A) |
|---|---|---|
| 互換性 | 既存 Spark/Hadoop 流用 | Beam へ書き換え必須 |
| クラスタ管理 | Workflow で自動化 | サーバレス |
| 移行コスト | 低 | 高 |
不正解の理由
- C: Dataflow への移行は Beam SDK 書き換えが必要で、既存スクリプト流用の要件に反します。
- B: BigQuery への完全書き換えは PySpark ロジックを SQL に再設計する必要があり大規模な変更となります。
- D: GKE Spark Operator は運用負荷が高く、Dataproc Workflow より複雑で要件に合いません。

コメント