Question#11(MLS-C01)

機械学習エンジニアは、鳥の分類モデルを構築しています。エンジニアはデータセットをランダムにトレーニングデータセットと検証データセットに分割しました。トレーニングフェーズでは、モデルは非常に高い精度を達成しましたが、検証データセットの検証中にモデルがうまく一般化しませんでした。エンジニアは、元のデータセットが不均衡であることに気づきました。

モデルの検証精度を向上させるために、エンジニアは何をすべきですか？

A. 元のデータセットに対して層化サンプリング（Stratified Sampling）を実施する。
B. 元のデータセットの多数派クラスのデータを追加で収集する。
C. 学習用データセットのより小さいランダムサンプルを使用する。
D. 元のデータセットに対して**系統抽出（Systematic Sampling）**を実施する。

正解と解説ディスカッション 0

正解：A

層化サンプリングが不均衡データセットのクラスの分布をトレーニングおよび検証データセットで均等に保ち、モデルがすべてのクラスに対して適切に学習できるようにするためです。これにより、検証データセットでの一般化性能が向上し、検証精度が改善されます。層化サンプリングは、SageMakerやPandasで簡単に実装可能であり、データセットの不均衡を直接解決する効率的な方法です

Question#11(MLS-C01)

コメント

コメント

コメントするコメントをキャンセル

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル