Question#54(MLS-C01)
ある企業は、数千人にオンラインの複数選択式アンケートを配布しています。アンケートの回答者は、各質問に対して複数の選択肢を選ぶことができます。機械学習(ML)エンジニアは、すべての回答者からのすべての回答をデータセットに包括的に表現する必要があります。MLエンジニアはこのデータセットを使用して、ロジスティック回帰モデルをトレーニングします。以下のどのソリューションがこれらの要件を満たしますか?
正解:A
ワンホットエンコーディングを使用してアンケートの各質問のすべての可能な選択肢をエンコードすることは、複数選択式アンケートの回答を包括的に表現するのに最適です。ワンホットエンコーディングは、各選択肢をバイナリ列(1または0)として表現し、回答者が選んだ選択肢を正確に記録します。たとえば、質問に5つの選択肢がある場合、5つの列が作成され、回答者が複数の選択肢を選んだ場合でもすべての選択が表現されます。この方法は情報の損失がなく、ロジスティック回帰モデルが処理できる数値形式(0と1)に変換します。SageMaker Data Wranglerでは、ワンホットエンコーディングをビジュアルインターフェースで簡単に適用でき、データ準備の効率が向上します。次元数は選択肢の数に応じて増加しますが、複数選択式アンケートのデータを正確に表現するには必要なトレードオフであり、モデルトレーニングに直接適用可能です。

コメント