Question#62(MLS-C01)

Question#62(MLS-C01)

データサイエンティストは、Amazon SageMaker Data Wranglerを使用してデータを分析および可視化しています。データサイエンティストは、トレーニングデータセットを洗練させるために、ターゲット変数に対して強い予測力を持つ予測変数を選択したいと考えています。ターゲット変数は他の予測変数と相関しています。データサイエンティストは、特徴量空間のさまざまな方向に沿ったデータの分散を理解したいと考えています。これらの要件を満たすソリューションはどれですか?

正解:C

主成分分析(PCA)は、特徴量空間の分散を分析し、データの高次元空間を低次元の主成分に変換する手法です。PCAは、特徴量間の相関を考慮し、データの分散が最大となる方向(主成分)を特定します。このプロセスにより、ターゲット変数と強い相関を持つ予測変数の寄与を評価し、冗長な情報を削減できます。SageMaker Data Wranglerは、PCAをサポートしており、多重共線性測定機能と組み合わせて、相関の強い特徴量を特定しつつ、分散構造を可視化・分析できます。問題の要件である「ターゲット変数に対して強い予測力を持つ予測変数の選択」は、PCAを通じて重要な主成分(ターゲット変数と高い相関を持つ方向)を特定することで実現でき、「特徴量空間のさまざまな方向に沿ったデータの分散を理解する」要件は、PCAが分散を主成分として直接表現するため完全に満たされます。さらに、PCAはすべての予測変数を考慮した新しい特徴量空間を提供し、データセットの洗練に役立ちます。したがって、選択肢は両方の要件を直接的に満たし、正解です。


コメント

コメント

コメントする

目次