MLS-C01#2(data-engineering)

ある保険会社は契約者属性データを Snowflake に保有し、SageMaker Studio から特徴量探索と前処理を視覚的に行いたいと考えています。SQL を書かずに数十種類の変換を試し、その後フローを処理ジョブに変換して S3 に書き出したい場合、最も適した方法はどれでしょうか。

A. AWS Glue Studio でビジュアル ETL を作り、ジョブブックマークで増分処理しながら結果を S3 に書き出します。
B. SageMaker Data Wrangler から Snowflake コネクタでデータを取り込み、フローを SageMaker Processing としてエクスポートします。
C. AWS Glue DataBrew で Snowflake JDBC データセットを作成し、レシピを実行して S3 に保存します。
D. EMR Studio で PySpark ノートブックを起動し、Snowflake Spark コネクタを利用して前処理スクリプトを書きます。

正解と解説ディスカッション 0

正解：B

正解の根拠

SageMaker Data Wrangler は Snowflake をはじめ多数のソースをネイティブサポートし、300 以上のビルトイン変換を GUI で適用できます。完成したフローはワンクリックで SageMaker Processing ジョブにエクスポートでき、本番化までの開発体験が一貫しています。

ツール	主用途	連携
Data Wrangler	特徴量設計	Processing 出力
DataBrew	クレンジング	レシピ単位
Glue Studio	汎用 ETL	SageMaker 直結ではない

不正解の理由

A: Glue Studio は ETL 向けで、特徴量探索の試行錯誤や Processing 出力には最適ではありません。
C: DataBrew は Snowflake 直結のレシピを Processing にエクスポートする機能が提供されていません。
D: PySpark を手書きする方式は GUI 探索の要件を満たさず、開発効率が大きく低下します。

参考：SageMaker Data Wrangler

MLS-C01#2(data-engineering)

正解の根拠

不正解の理由

コメント

コメント

コメントするコメントをキャンセル

正解の根拠

不正解の理由

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル