【ADP】WEB問題集:データパイプライン編

WEB問題集

ADP#1(data-pipeline)

Dataflowで処理する基本データ構造はどれですか。

ディスカッション 0

正解:B

正解の根拠

Apache BeamではPCollectionが分散データセットの基本単位です。バウンドおよびアンバウンドの両方を扱えます。

構造用途
PCollectionBeamの分散コレクション
PTransform変換処理

不正解の理由

  • DataFrameはpandasやSparkの構造です
  • RDDはSpark固有です
  • TensorはMLフレームワークの構造です

参考:Dataflow ドキュメント

ADP#2(data-pipeline)

Beamで要素ごとの変換を実装する基本クラスはどれですか。

ディスカッション 0

正解:D

正解の根拠

ParDoは入力PCollectionの各要素にDoFnを適用する汎用変換です。フィルタリング、整形、抽出など多目的に使えます。

変換役割
ParDo要素ごと処理
GroupByKeyキー集約

不正解の理由

  • GroupByはキー単位の集約専用です
  • Windowは時間分割です
  • Triggerは出力タイミング制御です

参考:Beam Programming Guide

ADP#3(data-pipeline)

キーごとに値を集約する変換はどれですか。

ディスカッション 0

正解:B

正解の根拠

GroupByKeyはKVペアのPCollectionをキー単位でグループ化します。集約処理の基本構造です。

変換結果
GroupByKeyK, Iterable<V>
CoGroupByKey複数入力の結合

不正解の理由

  • ParDoは要素ごと処理です
  • Flattenは複数PCollection統合です
  • Partitionは分割です

参考:GroupByKey

ADP#4(data-pipeline)

Pub/Subから無制限ストリームを処理するDataflowのモードはどれですか。

ディスカッション 0

正解:A

正解の根拠

無制限ソースはストリーミングモードで実行されます。Pub/Sub、Kafkaなどが代表例です。

モードソース例
バッチGCS, BigQuery
ストリーミングPub/Sub, Kafka

不正解の理由

  • バッチは有限データ用です
  • オンプレは実行環境の話です
  • ハイブリッドはBeam用語ではありません

参考:Streaming Pipelines

ADP#5(data-pipeline)

固定長で区切る基本ウィンドウはどれですか。

ディスカッション 0

正解:C

正解の根拠

Fixed Windowは重ならない固定長の時間区間です。例として1分ごとの集計などに使います。

種類特徴
Fixed重複なし固定長
Sliding重複あり

不正解の理由

  • Slidingは重複ウィンドウです
  • Sessionはギャップで区切ります
  • Globalは無制限です

参考:Windowing