WEB問題集
ADP#1(data-pipeline)
Dataflowで処理する基本データ構造はどれですか。
正解:B
正解の根拠
Apache BeamではPCollectionが分散データセットの基本単位です。バウンドおよびアンバウンドの両方を扱えます。
| 構造 | 用途 |
|---|---|
| PCollection | Beamの分散コレクション |
| PTransform | 変換処理 |
不正解の理由
- DataFrameはpandasやSparkの構造です
- RDDはSpark固有です
- TensorはMLフレームワークの構造です
ADP#2(data-pipeline)
Beamで要素ごとの変換を実装する基本クラスはどれですか。
正解:D
正解の根拠
ParDoは入力PCollectionの各要素にDoFnを適用する汎用変換です。フィルタリング、整形、抽出など多目的に使えます。
| 変換 | 役割 |
|---|---|
| ParDo | 要素ごと処理 |
| GroupByKey | キー集約 |
不正解の理由
- GroupByはキー単位の集約専用です
- Windowは時間分割です
- Triggerは出力タイミング制御です
ADP#3(data-pipeline)
キーごとに値を集約する変換はどれですか。
正解:B
正解の根拠
GroupByKeyはKVペアのPCollectionをキー単位でグループ化します。集約処理の基本構造です。
| 変換 | 結果 |
|---|---|
| GroupByKey | K, Iterable<V> |
| CoGroupByKey | 複数入力の結合 |
不正解の理由
- ParDoは要素ごと処理です
- Flattenは複数PCollection統合です
- Partitionは分割です
参考:GroupByKey
ADP#4(data-pipeline)
Pub/Subから無制限ストリームを処理するDataflowのモードはどれですか。
正解:A
正解の根拠
無制限ソースはストリーミングモードで実行されます。Pub/Sub、Kafkaなどが代表例です。
| モード | ソース例 |
|---|---|
| バッチ | GCS, BigQuery |
| ストリーミング | Pub/Sub, Kafka |
不正解の理由
- バッチは有限データ用です
- オンプレは実行環境の話です
- ハイブリッドはBeam用語ではありません
ADP#5(data-pipeline)
固定長で区切る基本ウィンドウはどれですか。
正解:C
正解の根拠
Fixed Windowは重ならない固定長の時間区間です。例として1分ごとの集計などに使います。
| 種類 | 特徴 |
|---|---|
| Fixed | 重複なし固定長 |
| Sliding | 重複あり |
不正解の理由
- Slidingは重複ウィンドウです
- Sessionはギャップで区切ります
- Globalは無制限です
参考:Windowing
