DP-900-CORE#75 | CloudCamp｜クラウド資格のWEB問題集

DP-900-CORE#75

次のうち、列指向 (columnar) のオープンソースファイル形式で、分析クエリ (集計・列選択) を高速に処理できるものはどれですか?

A. CSV B. JSON C. Apache Parquet D. XML

解説

【正解: C】の理由
Apache Parquet は列指向 (columnar) のオープンソースバイナリ形式であり、分析クエリに最適化されています。

形式	レイアウト	圧縮	分析クエリ性能	典型用途
CSV	行指向 (テキスト)	なし	低	単純エクスポート
JSON	ドキュメント (ツリー)	なし	中	API、半構造化
Parquet	列指向 (バイナリ)	高 (Snappy/GZIP)	高	Data Lake / 分析
XML	ドキュメント (ツリー)	なし	低	レガシー B2B 連携

Parquet は SELECT で必要列のみ読込 + スキーマ内包 + 高圧縮率を備えており、Spark / Synapse / Databricks / Fabric ですべてサポートされています。Delta Lake / Iceberg / Hudi のテーブル形式の基盤フォーマットでもあります。

【他選択肢が違う理由】

A. CSV: 行指向のテキスト形式であり、列単位スキャンができず分析には非効率です。
B. JSON: ツリー構造のテキスト形式であり、ネスト解析のオーバーヘッドが発生します。
D. XML: タグオーバーヘッドが大きく、Parquet 比で 10 倍以上のデータ量となります。

出典: Microsoft Learn — File formats for analytical data

解説

コメント

コメントするコメントをキャンセル

解説

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル