MENU

会員登録（無料）

ADP#1(data-pipeline)

この問題のディスカッション

ADP#1(data-pipeline)

Dataflowで処理する基本データ構造はどれですか。

A. DataFrame (pandas や Spark で扱う表形式の構造)
B. PCollection
C. RDD (Spark の耐障害性のある分散データセット)
D. Tensor (TensorFlow などで扱う多次元配列のデータ構造)

正解と解説ディスカッション 0

正解：B

正解の根拠

Apache BeamではPCollectionが分散データセットの基本単位です。バウンドおよびアンバウンドの両方を扱えます。

構造	用途
PCollection	Beamの分散コレクション
PTransform	変換処理

不正解の理由

DataFrameはpandasやSparkの構造です
RDDはSpark固有です
TensorはMLフレームワークの構造です

参考：Dataflow ドキュメント

コメント

コメント

コメントするコメントをキャンセル