Question#9(MLS-C01)
データサイエンティストは、異なる範囲を持つ150の相関した特徴量を含む表形式のデータセットを取得し、回帰モデルを構築しようとしています。データサイエンティストは、モデルのパフォーマンスへの影響を最小限に抑えながら、より効率的なモデルトレーニングを実現するソリューションを実装する必要があります。データサイエンティストは、主成分分析(PCA)前処理ステップを実行して、特徴量の数を独立した特徴量の小さなセットに削減し、その新しい特徴量を回帰モデルに使用することを決定しました。これらの要件を満たす前処理ステップはどれですか?
正解:B
Amazon SageMaker Data Wranglerは、GUIベースでデータ前処理を簡素化するツールであり、Min Maxスケーラー(特徴量を[0,1]の範囲にスケーリング)を使用して、異なる範囲を持つ150の特徴量を正規化できます。PCAを適用する前にスケーリングを行うことで、特徴量のスケールの違いによるバイアスを防ぎ、PCAが各特徴量の分散を適切に評価できるようになります。SageMakerの組み込みPCAアルゴリズムは、スケーリング済みデータを効率的に処理し、独立した主成分を生成します。このプロセスは、Data Wranglerの直感的なインターフェースとSageMakerの統合により、運用オーバーヘッドが低く、モデルのパフォーマンスへの影響を最小限に抑えます。AWSドキュメントでは、PCAの前にスケーリングを行うことが推奨されており、Min Maxスケーラーは一般的な選択肢です。

コメント