PMLE#5(data-collaboration)

PMLE#5(data-collaboration)

Cloud Storage 上の数 TB の Parquet ファイルを Dataflow で読み取り変換した後、BigQuery に書き込むパイプラインを構築します。最も適した Apache Beam 接続方法はどれですか。

ディスカッション 0

正解:C

正解の根拠

Apache Beam には Parquet 用の ReadFromParquet と BigQuery 書き込み用の WriteToBigQuery が用意されており、これがバッチ ETL の標準パターンです。

段階トランスフォーム
読み取りReadFromParquet
書き込みWriteToBigQuery

不正解の理由

  • B は Parquet をテキストとして扱えません
  • C はソースが Cloud Storage であり Pub/Sub ではありません
  • D は読み書きの方向が逆です

参考:Beam Parquet IO


コメント

コメント

コメントする

目次