AIF-C01#39(foundation-models)
ある企業が、世界中の顧客からの問題に対応するカスタマーサービスチームを支援するために、翻訳ツールを導入しました。この企業は、翻訳ツールのパフォーマンスを評価したいと考えています。同社は、ツールの回答と実際の人間による回答を比較する並列データプロセスを構築しました。どちらの回答セットも、同じドキュメントセットに基づいて生成されています。 翻訳ツールを評価するために、この企業はどの戦略を使用すべきですか?
正解:B
正解の根拠
BLEU スコアは候補翻訳と参照訳との n-gram 一致を測る指標です。BLEU は絶対尺度ではなくコーパス・言語ペアに依存するため、複数システム (本問ではツールの翻訳と人間翻訳) を同一データセットで比較する相対評価に使うのが正しい使い方です。これにより 2 つの翻訳手法の品質順位や差分を測れます。
翻訳評価指標の使い方
| 指標 | 位置付け |
|---|---|
| BLEU (相対) | 同一条件のシステム間比較 |
| BLEU (絶対) | 絶対品質判定には不適 |
| BERTScore | 意味類似性、相対比較向き |
| 人手評価 | 最終的な品質判断 |
不正解の理由
- A: BLEU は条件依存のスコアで、絶対品質の推定には適していないため「絶対的品質を推定」する用途とは整合しません。
- C: BERTScore も絶対品質指標ではなく、相対比較で使うのが基本のため「絶対的品質を推定」とする説明は不正確です。
- D: BERTScore は意味類似度ベースで翻訳評価に使えますが、業界標準の翻訳評価では BLEU の相対比較がより一般的に採用されます。

コメント