AIF-C01#8(fundamentals-generative-ai)
ある企業が、ユーザーが外国語を学ぶのを助けるモバイルアプリを導入しています。このアプリは、大規模言語モデル(LLM)を利用してテキストをより一貫性のあるものに変換します。同社は多様なテキストデータセットを収集し、読みやすいバージョンの例を追加しました。同社はLLMの出力が提供された例に似ていることを確認したいと考えています。 この要件を評価するために使用すべき指標はどれですか?
正解:C
正解の根拠
ROUGE (Recall-Oriented Understudy for Gisting Evaluation) は、生成テキストと参照テキスト (今回の例) の n-gram 一致率を測る指標で、要約や言い換えの品質評価に標準的に使われます。LLM の出力が「提供された例に似ているか」を定量化する用途に最適で、ROUGE-1/2/L のいずれもリファレンス類似度の評価に使えます。
主要評価指標の用途
| 指標 | 用途 |
|---|---|
| ROUGE | 要約/言い換えの参照一致 |
| BLEU | 機械翻訳の参照一致 |
| Loss | 訓練中の最適化指標 |
| Latency | 推論レイテンシ |
不正解の理由
- A: 損失関数の値は訓練最適化指標であり、生成出力と参照例の類似度は直接測定しません。
- B: セマンティック堅牢性は摂動に対する出力安定性を測る指標で、参照類似度の評価とは異なります。
- D: テキスト生成の遅延は性能指標であり、出力品質や類似度を測る指標ではありません。

コメント