AIF-C01#82(fundamentals-ai-ml)
基盤モデル(FM)のパフォーマンスの文脈において、F1 スコアは何を測定しますか?
正解:A
正解の根拠
F1 スコアは Precision (適合率) と Recall (再現率) の調和平均で、両者のバランスを 1 つの値で表す分類モデルの評価指標です。基盤モデル (FM) の分類タスクや情報抽出評価でも、誤検知と見逃しの双方を考慮した品質測定に用いられます。クラス不均衡データで Accuracy より信頼できる指標として広く使われます。
FM 評価指標の比較
| 指標 | 測定対象 |
|---|---|
| F1 スコア | 適合率と再現率の調和平均 |
| レイテンシ | 応答速度 |
| コスト | 運用財務コスト |
| エネルギー効率 | 計算消費電力 |
不正解の理由
- B: 応答生成速度はレイテンシ指標であり、分類精度を表す F1 スコアとは測定対象が異なります。
- C: 運用財務コストはコスト指標 (例: 1000 トークンあたり料金) で、F1 スコアの測定対象ではありません。
- D: エネルギー効率はサステナビリティ観点の指標で、モデルの分類精度を直接測定する F1 とは別概念です。

コメント