AIF-C01#52(fundamentals-generative-ai)

ある教育会社が、ティーンエイジャーを対象としたチャットボットを構築しています。同社は独自のカスタム大規模言語モデル（LLM）をトレーニングしており、チャットボットが独特なスペルや短縮語を使い、ターゲット層の言語スタイル（若者言葉）で話すことを望んでいます。このLLMのパフォーマンス（性能）を評価するために適切な指標はどれですか？

A. F1スコア (F1 score)
B. BERTScore
C. Recall-Oriented Understudy for Gisting Evaluation (ROUGE)
D. Bilingual Evaluation Understudy (BLEU) score

正解と解説ディスカッション 0

正解：B

正解の根拠

BERTScore は文を BERT 等の文脈埋め込みでベクトル化し、参照文と生成文の意味的類似度を計算する指標です。表層的な単語一致に依存しないため、若者言葉・独自スペル・短縮語のような非標準表記でも意味が伝わっているかを評価でき、ターゲット層のスタイルを評価する用途に適しています。

NLG 評価指標の比較

指標	特徴
BERTScore	意味的類似度 (柔軟)
BLEU	n-gram 一致 (翻訳向け)
ROUGE	n-gram 再現率 (要約向け)
F1	分類タスクの調和平均

不正解の理由

A: F1 スコアは分類タスク向け指標で、自由なスタイルの自然言語生成評価には直接適しません。
C: ROUGE は要約評価で n-gram 再現率を測るため、独自スペルや短縮語による表記揺れに過剰にペナルティを与えます。
D: BLEU は翻訳評価で n-gram 一致率を測るため、若者言葉のような非標準表現の評価には不向きです。

参考：Bedrock Model Evaluation

AIF-C01#52(fundamentals-generative-ai)

正解の根拠

NLG 評価指標の比較

不正解の理由

コメント

コメント

コメントするコメントをキャンセル

正解の根拠

NLG 評価指標の比較

不正解の理由

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル