Question#39(MLS-C01)

グローバルな銀行は、顧客が銀行を離れて他の銀行を選ぶかどうかを予測するソリューションを必要としています。銀行は、顧客離反を予測するモデルをトレーニングするためにデータセットを使用しています。トレーニングデータセットは1,000行で構成されており、そのうち100件が銀行を離れた顧客のインスタンスです。機械学習（ML）スペシャリストは、Amazon SageMaker Data Wranglerを使用して、SageMakerトレーニングジョブで顧客離反予測モデルをトレーニングしています。トレーニング後、MLスペシャリストはモデルが常に偽（false）の結果を返すことに気づきました。MLスペシャリストは、モデルを修正してより正確な予測を返すようにする必要があります。以下のどのソリューションがこれらの要件を満たしますか？

A. 学習前に異常検知を適用して、学習データセットから外れ値を除去する。
B. 学習前に SMOTE（Synthetic Minority Oversampling Technique）を学習データセットに適用する。
C. 学習前に学習データセットの特徴量を正規化する。
D. 学習前に学習データセットへアンダーサンプリングを適用する。

正解と解説ディスカッション 0

正解：B

本件は 10:90 のクラス不均衡が強く、モデルが多数派（非離反）だけを出力してしまう典型例です。SMOTE による少数派の合成オーバーサンプリングは、少数派（離反）のバリエーションを保ちながら学習分布をバランスさせ、再現率（見逃し低減）や F1 の改善につながります。Data Wrangler には少数派のオーバーサンプリングを行う変換（SMOTE 相当）が用意されており、開発工数も小さいです。

Question#39(MLS-C01)

コメント

コメント

コメントするコメントをキャンセル

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル