AIF-C01#16(fundamentals-ai-ml)
ある企業が生成AIを使用して、英語のトレーニングマニュアルを他の言語に翻訳するソリューションを構築しました。この企業は、生成されたマニュアルのテキストを検証することで、ソリューションの精度を評価したいと考えています。この要件を満たすモデル評価戦略はどれですか?
正解:A
正解の根拠
BLEU (BiLingual Evaluation Understudy) は機械翻訳の品質評価に標準採用される指標で、生成訳文と参照訳の n-gram 一致率を計算します。マニュアルの英語→他言語翻訳の精度評価に最適で、Bedrock や SageMaker JumpStart で扱う翻訳モデルの自動評価でも一般的に利用されます。
生成系モデル評価指標の用途
| 指標 | 用途 |
|---|---|
| BLEU | 機械翻訳評価 |
| ROUGE | 要約タスク評価 |
| RMSE | 回帰の誤差 |
| F1 | 分類精度 |
不正解の理由
- B: RMSE は連続値予測の誤差評価指標で、翻訳テキストの一致度を直接測るためには使いません。
- C: ROUGE は要約タスクで参照との再現率を測る指標で、翻訳評価では BLEU が標準です。
- D: F1 は分類タスク向けで、テキスト生成の語句一致を評価する指標ではありません。

コメント