AIF-C01#16(fundamentals-generative-ai)
ある企業が生成AIを使用してソリューションを構築しました。このソリューションは、大規模言語モデル(LLM)を活用して、トレーニングマニュアルを英語から他の言語に翻訳します。同社は、マニュアルに対して生成されたテキストを検証することで、ソリューションの正確性を評価したいと考えています。 どのモデル評価戦略がこの要件を満たしますか?
正解:D
正解の根拠
BLEU (Bilingual Evaluation Understudy) は機械翻訳の標準評価指標で、機械翻訳出力と参照翻訳の n-gram 一致率を計算します。トレーニングマニュアルの英語→他言語翻訳の品質評価に最適で、SageMaker Foundation Model Evaluation や独立ライブラリで簡単に算出できます。値が 1.0 に近いほど参照訳に近い品質を示します。
評価指標と用途
| 指標 | 用途 |
|---|---|
| BLEU | 機械翻訳評価 |
| ROUGE | 要約評価 |
| F1 スコア | 分類評価 |
| RMSE | 回帰評価 |
不正解の理由
- A: ROUGE は要約品質の指標で、翻訳評価では BLEU が業界標準として用いられます。
- B: F1 スコアは分類タスク (precision/recall) の指標で、翻訳の品質評価には使われません。
- C: RMSE は回帰タスクの誤差指標で、テキスト生成評価には適合しません。

コメント