MLS-C01#2(data-engineering)

MLS-C01#2(data-engineering)

ある保険会社は契約者属性データを Snowflake に保有し、SageMaker Studio から特徴量探索と前処理を視覚的に行いたいと考えています。SQL を書かずに数十種類の変換を試し、その後フローを処理ジョブに変換して S3 に書き出したい場合、最も適した方法はどれでしょうか。

ディスカッション 0

正解:B

正解の根拠

SageMaker Data Wrangler は Snowflake をはじめ多数のソースをネイティブサポートし、300 以上のビルトイン変換を GUI で適用できます。完成したフローはワンクリックで SageMaker Processing ジョブにエクスポートでき、本番化までの開発体験が一貫しています。

ツール主用途連携
Data Wrangler特徴量設計Processing 出力
DataBrewクレンジングレシピ単位
Glue Studio汎用 ETLSageMaker 直結ではない

不正解の理由

  • A: Glue Studio は ETL 向けで、特徴量探索の試行錯誤や Processing 出力には最適ではありません。
  • C: DataBrew は Snowflake 直結のレシピを Processing にエクスポートする機能が提供されていません。
  • D: PySpark を手書きする方式は GUI 探索の要件を満たさず、開発効率が大きく低下します。

参考:SageMaker Data Wrangler


コメント

コメント

コメントする

目次