Question#9(MLS-C01)

データサイエンティストは、異なる範囲を持つ150の相関した特徴量を含む表形式のデータセットを取得し、回帰モデルを構築しようとしています。データサイエンティストは、モデルのパフォーマンスへの影響を最小限に抑えながら、より効率的なモデルトレーニングを実現するソリューションを実装する必要があります。データサイエンティストは、主成分分析（PCA）前処理ステップを実行して、特徴量の数を独立した特徴量の小さなセットに削減し、その新しい特徴量を回帰モデルに使用することを決定しました。これらの要件を満たす前処理ステップはどれですか？

A. データセットに対してAmazon SageMakerの組み込みPCAアルゴリズムを使用してデータを変換します。
B. データをAmazon SageMaker Data Wranglerにロードします。Min Maxスケーラー変換ステップでデータをスケーリングします。スケーリングされたデータセットに対してSageMakerの組み込みPCAアルゴリズムを使用してデータを変換します。
C. 最も高い相関を持つ特徴量を削除することでデータセットの次元を削減します。データをAmazon SageMaker Data Wranglerにロードします。標準スケーラー変換ステップを実行してデータをスケーリングします。スケーリングされたデータセットに対してSageMakerの組み込みPCAアルゴリズムを使用してデータを変換します。
D. 最も低い相関を持つ特徴量を削除することでデータセットの次元を削減します。データをAmazon SageMaker Data Wranglerにロードします。Min Maxスケーラー変換ステップを実行してデータをスケーリングします。スケーリングされたデータセットに対してSageMakerの組み込みPCAアルゴリズムを使用してデータを変換します。

正解と解説ディスカッション 0

正解：B

Amazon SageMaker Data Wranglerは、GUIベースでデータ前処理を簡素化するツールであり、Min Maxスケーラー（特徴量を[0,1]の範囲にスケーリング）を使用して、異なる範囲を持つ150の特徴量を正規化できます。PCAを適用する前にスケーリングを行うことで、特徴量のスケールの違いによるバイアスを防ぎ、PCAが各特徴量の分散を適切に評価できるようになります。SageMakerの組み込みPCAアルゴリズムは、スケーリング済みデータを効率的に処理し、独立した主成分を生成します。このプロセスは、Data Wranglerの直感的なインターフェースとSageMakerの統合により、運用オーバーヘッドが低く、モデルのパフォーマンスへの影響を最小限に抑えます。AWSドキュメントでは、PCAの前にスケーリングを行うことが推奨されており、Min Maxスケーラーは一般的な選択肢です。

Question#9(MLS-C01)

コメント

コメント

コメントするコメントをキャンセル

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル