AIF-C01#8(fundamentals-generative-ai)

ある企業が、ユーザーが外国語を学ぶのを助けるモバイルアプリを導入しています。このアプリは、大規模言語モデル（LLM）を利用してテキストをより一貫性のあるものに変換します。同社は多様なテキストデータセットを収集し、読みやすいバージョンの例を追加しました。同社はLLMの出力が提供された例に似ていることを確認したいと考えています。この要件を評価するために使用すべき指標はどれですか？

A. 損失関数の値
B. セマンティック堅牢性
C. ROUGEスコア
D. テキスト生成の遅延

正解と解説ディスカッション 0

正解：C

正解の根拠

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) は、生成テキストと参照テキスト (今回の例) の n-gram 一致率を測る指標で、要約や言い換えの品質評価に標準的に使われます。LLM の出力が「提供された例に似ているか」を定量化する用途に最適で、ROUGE-1/2/L のいずれもリファレンス類似度の評価に使えます。

主要評価指標の用途

指標	用途
ROUGE	要約/言い換えの参照一致
BLEU	機械翻訳の参照一致
Loss	訓練中の最適化指標
Latency	推論レイテンシ

不正解の理由

A: 損失関数の値は訓練最適化指標であり、生成出力と参照例の類似度は直接測定しません。
B: セマンティック堅牢性は摂動に対する出力安定性を測る指標で、参照類似度の評価とは異なります。
D: テキスト生成の遅延は性能指標であり、出力品質や類似度を測る指標ではありません。

参考：SageMaker FM Evaluations

AIF-C01#8(fundamentals-generative-ai)

正解の根拠

主要評価指標の用途

不正解の理由

コメント

コメント

コメントするコメントをキャンセル

正解の根拠

主要評価指標の用途

不正解の理由

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル