ADP#3(data-preparation)
データアナリストがBigQueryに格納するファイル形式を選定しています。読み取りは列指向の集計クエリが中心、ファイルサイズはできるだけ小さく、スキーマ進化(カラム追加)にも対応したい場合、どのファイル形式が最適ですか。
正解:D
正解の根拠
Parquet は列指向フォーマットで、列単位の集計クエリにおいて必要列のみ読み込めるため I/O とコストを削減できます。Snappy圧縮で高い圧縮率を保ちつつ、スキーマ進化(カラム追加・型のwidening)にも対応します。
| 形式 | 指向 | 集計性能 | スキーマ進化 |
|---|---|---|---|
| CSV | テキスト | 低 | 不可 |
| JSON | 行 | 低 | 柔軟だが非効率 |
| Avro | 行 | 中 | 強い |
| Parquet | 列 | 高 | 対応 |
不正解の理由
- A: CSVはテキスト形式で型情報を持たず、列指向集計でも全列を読み込むためI/O効率が悪いです。
- B: JSON Lines は柔軟ですがサイズが大きく、列単位の最適化が効きません。
- C: Avro は行指向で書き込み・全件読み出しに強いものの、列単位集計ではParquetに劣ります。

コメント