Question#5(DP-900)
各列に対して定義された名前とデータ型を持ち、圧縮された列指向(カラムナ)ストレージを使用するファイル形式はどれですか?
正解:C
この問題のキーワードは「データ型の定義」と「列指向(カラムナ)ストレージ」です。
- なぜ Apache Parquet なのか?
- 列指向(Columnar): データを「行」ではなく「列」単位で保持します。これにより、特定の列だけを読み込む分析クエリが非常に高速になり、高い圧縮率を実現できます。
- スキーマの保持: ファイル自体に列名やデータ型(整数、文字列など)の情報が含まれているため、読み取り時に型を推測する必要がありません。
- Azureとの親和性: Azure Data Lake StorageやAzure Synapse Analyticsで、ビッグデータを扱う際の標準的な形式として推奨されています。

コメント