ADP#3(data-preparation)

ADP#3(data-preparation)

データアナリストがBigQueryに格納するファイル形式を選定しています。読み取りは列指向の集計クエリが中心、ファイルサイズはできるだけ小さく、スキーマ進化(カラム追加)にも対応したい場合、どのファイル形式が最適ですか。

ディスカッション 0

正解:D

正解の根拠

Parquet は列指向フォーマットで、列単位の集計クエリにおいて必要列のみ読み込めるため I/O とコストを削減できます。Snappy圧縮で高い圧縮率を保ちつつ、スキーマ進化(カラム追加・型のwidening)にも対応します。

形式指向集計性能スキーマ進化
CSVテキスト不可
JSON柔軟だが非効率
Avro強い
Parquet対応

不正解の理由

  • A: CSVはテキスト形式で型情報を持たず、列指向集計でも全列を読み込むためI/O効率が悪いです。
  • B: JSON Lines は柔軟ですがサイズが大きく、列単位の最適化が効きません。
  • C: Avro は行指向で書き込み・全件読み出しに強いものの、列単位集計ではParquetに劣ります。

参考:Loading Parquet data from Cloud Storage


コメント

コメント

コメントする

目次