PMLE#5(data-collaboration)
Cloud Storage 上の数 TB の Parquet ファイルを Dataflow で読み取り変換した後、BigQuery に書き込むパイプラインを構築します。最も適した Apache Beam 接続方法はどれですか。
正解:C
正解の根拠
Apache Beam には Parquet 用の ReadFromParquet と BigQuery 書き込み用の WriteToBigQuery が用意されており、これがバッチ ETL の標準パターンです。
| 段階 | トランスフォーム |
|---|---|
| 読み取り | ReadFromParquet |
| 書き込み | WriteToBigQuery |
不正解の理由
- B は Parquet をテキストとして扱えません
- C はソースが Cloud Storage であり Pub/Sub ではありません
- D は読み書きの方向が逆です

コメント