Question#11(MLS-C01)
機械学習エンジニアは、鳥の分類モデルを構築しています。エンジニアはデータセットをランダムにトレーニングデータセットと検証データセットに分割しました。トレーニングフェーズでは、モデルは非常に高い精度を達成しましたが、検証データセットの検証中にモデルがうまく一般化しませんでした。エンジニアは、元のデータセットが不均衡であることに気づきました。
モデルの検証精度を向上させるために、エンジニアは何をすべきですか?正解:A
層化サンプリングが不均衡データセットのクラスの分布をトレーニングおよび検証データセットで均等に保ち、モデルがすべてのクラスに対して適切に学習できるようにするためです。これにより、検証データセットでの一般化性能が向上し、検証精度が改善されます。層化サンプリングは、SageMakerやPandasで簡単に実装可能であり、データセットの不均衡を直接解決する効率的な方法です

コメント