WEB問題集
正解:D
Azure Data Factory (ADF) と Azure Synapse Analytics の関係性を理解することがポイントです。
-
なぜ Azure Synapse Analytics なのか? Azure Synapse Analytics は、データウェアハウス、ビッグデータ分析、そしてデータ統合を1つの UI(Synapse Studio)で提供する統合分析プラットフォームです。この中の「統合(Integrate)」機能として、Azure Data Factory と全く同じコードベースのパイプラインエンジンが組み込まれています。
-
他の選択肢が不適切な理由:
-
Azure Databricks: Apache Spark ベースの分析プラットフォームであり、独自のノートブックやジョブ管理機能を持っていますが、ADF のエンジンそのものを内蔵しているわけではありません。
-
Azure HDInsight: Hadoop や Spark などのオープンソース フレームワークをクラウドで実行するサービスであり、独自の管理機構を持ちます。
-
Azure SQL Database: リレーショナル データベース サービスであり、データを格納・処理するためのエンジンですが、オーケストレーション(パイプライン)エンジンではありません。
-
💡 ワンポイントアドバイス 試験では「ADF で作ったパイプラインを Synapse に移行できるか?」や「両者の違いは何か?」といった視点もよく問われます。「Synapse は ADF の機能を内包している」と覚えておくとスムーズです。
次の文章を正しく完成させる回答を選択してください。
回答エリア: データウェアハウス内のデータは集計され、オンライン分析処理 (OLAP) モデルにロードすることができます。このモデルは一般的に [ 選択肢 ] としても知られています。
正解:A
この問題は、OLAP(オンライン分析処理)という技術がデータをどのように保持・表現するかを問うています。
-
なぜ cube (キューブ) なのか? OLAP モデルは、データを多次元的に整理します(例:時間 × 地域 × 製品)。この多次元構造を視覚的に表現したものが「データキューブ(多次元キューブ)」と呼ばれるため、OLAP モデルそのものを cube と呼ぶのが一般的です。
-
他の選択肢が不適切な理由:
-
data lake: 生データをそのままの形式で大量に保存する場所であり、集計済みの分析モデルを指す言葉ではありません。
-
dimension: キューブを構成する一要素(例:「日付」や「店舗」といった属性)のことです。モデル全体を指す言葉ではありません。
-
measure: キューブの中で集計される数値データ(例:「売上高」や「数量」)のことです。これもモデル全体を指す言葉ではありません。
-
問題: 次の文章を正しく完成させる回答を選択してください。
回答エリア:[ 選択肢 ] は、2つの数値メジャーを比較し、それらの間の関係や相関関係を特定するために使用されます。 正解:C
- 散布図(Scatter charts)は、X軸とY軸にそれぞれ異なる数値項目を割り当ててドットを打つグラフです。これにより、2つの値に「正の相関があるか(右肩上がりか)」などの相関関係(correlation)を視覚的に把握するのに最も適しています。
- 不正解の理由:
- Bar charts: 項目間の量の比較に適しています。
- Pie charts: 全体に対する割合の比較に適しています。
- Tables: 詳細な数値を確認するのには向いていますが、視覚的な相関関係の特定には不向きです。
問題: 次の文章を正しく完成させる回答を選択してください。
回答エリア: Microsoft Power BI では、[ 選択肢 ] を作成することで、ディメンションの異なるレベルにある集計値を素早くドリルアップまたはドリルダウンして見つけることができます。 正解:D
この問題は、Power BI でデータの詳細度(粒度)を切り替えるための機能を問うています。
- なぜ 属性階層 / ヒエラルキーなのか? 「階層(Hierarchy)」を作成すると、データを「年 > 四半期 > 月 > 日」や「国 > 地域 > 都市」といった親子関係でグループ化できます。これにより、レポート上で「ドリルダウン(詳細へ掘り下げる)」や「ドリルアップ(概要へ戻る)」操作が可能になります。
各列に対して定義された名前とデータ型を持ち、圧縮された列指向(カラムナ)ストレージを使用するファイル形式はどれですか?
正解:C
この問題のキーワードは「データ型の定義」と「列指向(カラムナ)ストレージ」です。
- なぜ Apache Parquet なのか?
- 列指向(Columnar): データを「行」ではなく「列」単位で保持します。これにより、特定の列だけを読み込む分析クエリが非常に高速になり、高い圧縮率を実現できます。
- スキーマの保持: ファイル自体に列名やデータ型(整数、文字列など)の情報が含まれているため、読み取り時に型を推測する必要がありません。
- Azureとの親和性: Azure Data Lake StorageやAzure Synapse Analyticsで、ビッグデータを扱う際の標準的な形式として推奨されています。
