AIF-C01#15(fundamentals-ai-ml)
ある企業が、大規模言語モデル(LLM)をファインチューニングしてヘルプデスクの質問に回答できるようにしました。同社は、ファインチューニングがモデルの精度を向上させたかどうかを判断したいと考えています。 評価に使用すべき指標はどれですか?
正解:C
正解の根拠
ヘルプデスク回答のような分類的な評価では、適合率と再現率の調和平均である F1 スコアが定番です。LLM のファインチューニング前後で同一テストセットの F1 を比較すれば、応答精度の改善有無を客観的に判定できます。SageMaker Clarify や Bedrock Evaluation でも F1 を主要指標として採用できます。
評価指標の使い分け
| 指標 | 用途 |
|---|---|
| F1 | 分類精度の調和平均 |
| 精度 (Accuracy) | クラス不均衡時に誤誘導 |
| 最初のトークンまでの時間 | レイテンシ計測 |
| 単語誤り率 (WER) | 音声認識評価 |
不正解の理由
- A: 単純な精度はクラス不均衡時に誤った安心感を与えるため、ヘルプデスク回答評価では F1 のほうが適切です。
- B: 最初のトークンまでの時間はレイテンシ指標で、回答精度の向上判定には用いません。
- D: 単語誤り率は音声認識やテキスト書き起こし評価向けで、QA 応答精度の指標としては適合しません。

コメント