AIF-C01#47(foundation-models)

テキスト要約（text summarization）タスクにおいて、基盤モデル（FM）のパフォーマンスを評価するために使用される指標はどれですか？

A. F1スコア (F1 score)
B. BLEUスコア (Bilingual Evaluation Understudy score)
C. 正解率 (Accuracy)
D. 平均二乗誤差 (Mean squared error: MSE)

正解：B

正解の根拠

BLEU (Bilingual Evaluation Understudy) は機械翻訳や要約などの生成タスクで、参照テキストと生成テキストの n-gram 一致を測る代表的指標です。テキスト要約評価では BLEU や ROUGE が一般に使われ、Bedrock Model Evaluation や独自パイプラインでも採用されます。本問では選択肢内で生成タスク向けは BLEU のみのため正解です。

主要評価指標の使い分け

指標	主な用途
BLEU	翻訳/要約 n-gram 一致
ROUGE	要約 recall 中心評価
F1/Accuracy	分類タスク
MSE	回帰タスク誤差

不正解の理由

A: F1 はクラス分類における Precision/Recall の調和平均で、要約のような生成テキスト品質を測るのには適しません。
C: Accuracy は分類タスクでクラスが正しいかを評価する指標で、自由生成された要約文の品質測定には適合しません。
D: MSE は回帰タスクで予測値と実測値の二乗誤差を扱う指標で、テキスト生成の評価指標としては用いません。

参考：Bedrock Model Evaluation

AIF-C01#47(foundation-models)

正解の根拠

主要評価指標の使い分け

不正解の理由

コメント

コメント

コメントするコメントをキャンセル

正解の根拠

主要評価指標の使い分け

不正解の理由

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル