PDE#4(ingesting)
あるグローバル小売企業は、複数の ETL を毎日決まった時刻に実行し、依存関係に従って BigQuery テーブルを更新したいと考えています。タスクは Dataflow、Dataproc、Cloud Functions、外部 API 呼び出しなど多様で、失敗時の再試行やバックフィルが必要です。最も適した Google Cloud サービスはどれですか?
正解:B
正解の根拠
Cloud Composer はマネージド Apache Airflow で、複雑な依存関係を持つ DAG を Python で記述できます。Dataflow、Dataproc、BigQuery、HTTP など豊富な Operators が標準で用意され、リトライ・SLA・バックフィルといった ETL オーケストレーション要件を満たします。多様なタスク種別を一元管理できる点が最大の強みです。
サービス比較
| 項目 | Cloud Composer (B) | Cloud Workflows (C) |
|---|---|---|
| 用途 | データ ETL オーケストレーション | サービス間ステートマシン |
| バックフィル | 標準機能 | 非対応 |
| Operators | BigQuery/Dataflow 等多数 | HTTP 中心 |
不正解の理由
- A: Scheduler だけでは依存関係制御やバックフィル機能がなく、複雑な ETL には不十分です。
- C: Workflows はサービス間連携向けで、バックフィルやデータ系 Operator が不足し ETL に不向きです。
- D: スケジュールクエリは BigQuery 内で完結する用途向けで、多様なタスクを統合管理できません。

コメント