AIF-C01#47(foundation-models)
テキスト要約(text summarization)タスクにおいて、基盤モデル(FM)のパフォーマンスを評価するために使用される指標はどれですか?
正解:B
正解の根拠
BLEU (Bilingual Evaluation Understudy) は機械翻訳や要約などの生成タスクで、参照テキストと生成テキストの n-gram 一致を測る代表的指標です。テキスト要約評価では BLEU や ROUGE が一般に使われ、Bedrock Model Evaluation や独自パイプラインでも採用されます。本問では選択肢内で生成タスク向けは BLEU のみのため正解です。
主要評価指標の使い分け
| 指標 | 主な用途 |
|---|---|
| BLEU | 翻訳/要約 n-gram 一致 |
| ROUGE | 要約 recall 中心評価 |
| F1/Accuracy | 分類タスク |
| MSE | 回帰タスク誤差 |
不正解の理由
- A: F1 はクラス分類における Precision/Recall の調和平均で、要約のような生成テキスト品質を測るのには適しません。
- C: Accuracy は分類タスクでクラスが正しいかを評価する指標で、自由生成された要約文の品質測定には適合しません。
- D: MSE は回帰タスクで予測値と実測値の二乗誤差を扱う指標で、テキスト生成の評価指標としては用いません。

コメント