AIF-C01#45(fundamentals-ai-ml)
ある企業が、テキスト要約(text summarization)タスクのために、いくつかの大規模言語モデル(LLM)を評価しています。企業は、LLMが生成した要約の品質を評価するための指標を選択する必要があります。 この要件を満たす指標はどれですか?
正解:C
正解の根拠
ROUGE (Recall-Oriented Understudy for Gisting Evaluation) は、生成された要約と参照要約の n-gram 重複や最長共通部分列を測定する指標で、要約タスクの標準評価に使われます。Bedrock Model Evaluation や SageMaker Clarify FMEval も要約評価で ROUGE を採用しています。
評価指標の比較
| 指標 | 用途 |
|---|---|
| ROUGE | 要約品質 |
| BLEU | 機械翻訳品質 |
| AUC | 二値分類性能 |
| MSE | 回帰誤差 |
不正解の理由
- A: 再現率は分類タスクの取りこぼし率指標で、生成テキストの語彙的一致を測る要約評価には標準的に用いません。
- B: AUC は二値分類のしきい値非依存性能指標で、要約のような生成タスクには適合しません。
- D: MSE は連続値予測の誤差指標で、テキスト生成の品質評価には用いられない指標です。

コメント