DP-900-CORE#75
次のうち、列指向 (columnar) のオープン ソース ファイル形式で、分析クエリ (集計・列選択) を高速に処理できるものはどれですか?
解説
【正解: C】の理由
Apache Parquet は列指向 (columnar) のオープン ソース バイナリ形式であり、分析クエリに最適化されています。
Parquet は SELECT で必要列のみ読込 + スキーマ内包 + 高圧縮率を備えており、Spark / Synapse / Databricks / Fabric ですべてサポートされています。Delta Lake / Iceberg / Hudi のテーブル形式の基盤フォーマットでもあります。
【他選択肢が違う理由】
出典: Microsoft Learn — File formats for analytical data
Apache Parquet は列指向 (columnar) のオープン ソース バイナリ形式であり、分析クエリに最適化されています。
| 形式 | レイアウト | 圧縮 | 分析クエリ性能 | 典型用途 |
|---|---|---|---|---|
| CSV | 行指向 (テキスト) | なし | 低 | 単純エクスポート |
| JSON | ドキュメント (ツリー) | なし | 中 | API、半構造化 |
| Parquet | 列指向 (バイナリ) | 高 (Snappy/GZIP) | 高 | Data Lake / 分析 |
| XML | ドキュメント (ツリー) | なし | 低 | レガシー B2B 連携 |
Parquet は SELECT で必要列のみ読込 + スキーマ内包 + 高圧縮率を備えており、Spark / Synapse / Databricks / Fabric ですべてサポートされています。Delta Lake / Iceberg / Hudi のテーブル形式の基盤フォーマットでもあります。
【他選択肢が違う理由】
- A. CSV: 行指向のテキスト形式であり、列単位スキャンができず分析には非効率です。
- B. JSON: ツリー構造のテキスト形式であり、ネスト解析のオーバーヘッドが発生します。
- D. XML: タグオーバーヘッドが大きく、Parquet 比で 10 倍以上のデータ量となります。
出典: Microsoft Learn — File formats for analytical data

コメント