AIF-C01#47(foundation-models)

AIF-C01#47(foundation-models)
テキスト要約(text summarization)タスクにおいて、基盤モデル(FM)のパフォーマンスを評価するために使用される指標はどれですか?

正解:B

正解の根拠

BLEU (Bilingual Evaluation Understudy) は機械翻訳や要約などの生成タスクで、参照テキストと生成テキストの n-gram 一致を測る代表的指標です。テキスト要約評価では BLEU や ROUGE が一般に使われ、Bedrock Model Evaluation や独自パイプラインでも採用されます。本問では選択肢内で生成タスク向けは BLEU のみのため正解です。

主要評価指標の使い分け

指標主な用途
BLEU翻訳/要約 n-gram 一致
ROUGE要約 recall 中心評価
F1/Accuracy分類タスク
MSE回帰タスク誤差

不正解の理由

  • A: F1 はクラス分類における Precision/Recall の調和平均で、要約のような生成テキスト品質を測るのには適しません。
  • C: Accuracy は分類タスクでクラスが正しいかを評価する指標で、自由生成された要約文の品質測定には適合しません。
  • D: MSE は回帰タスクで予測値と実測値の二乗誤差を扱う指標で、テキスト生成の評価指標としては用いません。

参考:Bedrock Model Evaluation


コメント

コメント

コメントする

目次