AIF-C01#38(fundamentals-ai-ml)
ある企業がデータセットを使用して機械学習(ML)モデルをトレーニングしています。そのデータセットには、他のクラスよりも多くの例(サンプル)を持つクラスが含まれています(不均衡データ)。この企業は、モデルが各クラスの検出とラベル付けをどの程度バランスよく行えているかを測定したいと考えています。 この企業はどの指標(メトリクス)を使用すべきですか?
正解:D
正解の根拠
F1 スコアは適合率と再現率の調和平均で、不均衡データに対しても各クラスの検出バランスを評価できる指標です。多数派クラスばかり予測する偏りを正解率は見逃しがちですが、F1 スコアは各クラスごとに計算し macro/weighted 平均を取ることでバランスを反映します。SageMaker の評価レポートにも標準で含まれます。
分類指標の比較
| 指標 | 特徴 |
|---|---|
| F1 スコア | 適合率と再現率の調和平均 |
| 正解率 | 不均衡データで誤誘導されやすい |
| 再現率 | 取りこぼし率の評価 |
| 適合率 | 誤検出率の評価 |
不正解の理由
- A: 正解率は不均衡データだと多数派クラス偏重でも高く出てしまい、クラスバランスの評価には不適です。
- B: 再現率はクラスごとの取りこぼし指標で単独使用ではバランスが見えず、F1 のような統合指標が必要です。
- C: 適合率は誤検出を測る指標で、再現率と組み合わせない限りバランス評価には不十分です。

コメント