AIF-C01#45(fundamentals-ai-ml)

ある企業が、テキスト要約（text summarization）タスクのために、いくつかの大規模言語モデル（LLM）を評価しています。企業は、LLMが生成した要約の品質を評価するための指標を選択する必要があります。この要件を満たす指標はどれですか？

A. 再現率 (Recall)
B. ROC曲線下面積 (Area under the ROC curve / AUC)
C. ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
D. 平均二乗誤差 (Mean squared error / MSE)

正解と解説ディスカッション 0

正解：C

正解の根拠

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) は、生成された要約と参照要約の n-gram 重複や最長共通部分列を測定する指標で、要約タスクの標準評価に使われます。Bedrock Model Evaluation や SageMaker Clarify FMEval も要約評価で ROUGE を採用しています。

評価指標の比較

指標	用途
ROUGE	要約品質
BLEU	機械翻訳品質
AUC	二値分類性能
MSE	回帰誤差

不正解の理由

A: 再現率は分類タスクの取りこぼし率指標で、生成テキストの語彙的一致を測る要約評価には標準的に用いません。
B: AUC は二値分類のしきい値非依存性能指標で、要約のような生成タスクには適合しません。
D: MSE は連続値予測の誤差指標で、テキスト生成の品質評価には用いられない指標です。

参考：SageMaker FMEval

AIF-C01#45(fundamentals-ai-ml)

正解の根拠

評価指標の比較

不正解の理由

コメント

コメント

コメントするコメントをキャンセル

正解の根拠

評価指標の比較

不正解の理由

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル