Question#17(MLS-C01)
オンライン小売業者の機械学習(ML)開発者は、最近、販売データセットをAmazon SageMaker Studioにアップロードしました。ML開発者は、データセットの各特徴量の重要度スコアを取得したいと考えています。ML開発者は、重要度スコアを使用してデータセットの特徴量エンジニアリングを行います。この要件を最小の開発労力で満たすソリューションはどれですか?
正解:A
Amazon SageMaker Data Wranglerは、データ前処理と分析に特化したGUIベースのツールであり、特徴量の重要度分析をサポートしています。ジニ重要度スコア(Gini importance)は、決定木やランダムフォレストなどのアルゴリズムに基づいて、各特徴量がモデルの予測にどの程度貢献するかを評価する一般的な手法です。Data Wranglerのデータインサイト機能を使用すると、データセットをインポートし、ジニ重要度スコアを自動的に計算して視覚化できます。このプロセスはコード記述を必要とせず、直感的なインターフェースで操作できるため、開発労力が最小限に抑えられます。Data Wranglerは、SageMaker Studioと統合されており、特徴量エンジニアリング(例:重要度の低い特徴量の削除や変換)にも直接移行できるため、効率的です。AWSドキュメントでは、Data Wranglerの特徴量重要度分析がデータ探索とエンジニアリングに適していると記載されています。

コメント