PMLE#5(data-collaboration)

Cloud Storage 上の数 TB の Parquet ファイルを Dataflow で読み取り変換した後、BigQuery に書き込むパイプラインを構築します。最も適した Apache Beam 接続方法はどれですか。

正解と解説ディスカッション 0

正解：C

Apache Beam には Parquet 用の ReadFromParquet と BigQuery 書き込み用の WriteToBigQuery が用意されており、これがバッチ ETL の標準パターンです。

段階	トランスフォーム
読み取り	ReadFromParquet
書き込み	WriteToBigQuery

コメント