AIF-C01#39(foundation-models)

ある企業が、世界中の顧客からの問題に対応するカスタマーサービスチームを支援するために、翻訳ツールを導入しました。この企業は、翻訳ツールのパフォーマンスを評価したいと考えています。同社は、ツールの回答と実際の人間による回答を比較する並列データプロセスを構築しました。どちらの回答セットも、同じドキュメントセットに基づいて生成されています。翻訳ツールを評価するために、この企業はどの戦略を使用すべきですか？

A. Bilingual Evaluation Understudy（BLEU）スコアを使用して、2つの手法の絶対的な翻訳品質を推定する。
B. Bilingual Evaluation Understudy（BLEU）スコアを使用して、2つの手法の相対的な翻訳品質を推定する。
C. BERTScoreを使用して、2つの手法の絶対的な翻訳品質を推定する。
D. BERTScoreを使用して、2つの手法の相対的な翻訳品質を推定する。

正解と解説ディスカッション 0

正解：B

正解の根拠

BLEU スコアは候補翻訳と参照訳との n-gram 一致を測る指標です。BLEU は絶対尺度ではなくコーパス・言語ペアに依存するため、複数システム (本問ではツールの翻訳と人間翻訳) を同一データセットで比較する相対評価に使うのが正しい使い方です。これにより 2 つの翻訳手法の品質順位や差分を測れます。

翻訳評価指標の使い方

指標	位置付け
BLEU (相対)	同一条件のシステム間比較
BLEU (絶対)	絶対品質判定には不適
BERTScore	意味類似性、相対比較向き
人手評価	最終的な品質判断

不正解の理由

A: BLEU は条件依存のスコアで、絶対品質の推定には適していないため「絶対的品質を推定」する用途とは整合しません。
C: BERTScore も絶対品質指標ではなく、相対比較で使うのが基本のため「絶対的品質を推定」とする説明は不正確です。
D: BERTScore は意味類似度ベースで翻訳評価に使えますが、業界標準の翻訳評価では BLEU の相対比較がより一般的に採用されます。

参考：SageMaker FM Evaluation Metrics

AIF-C01#39(foundation-models)

正解の根拠

翻訳評価指標の使い方

不正解の理由

コメント

コメント

コメントするコメントをキャンセル

正解の根拠

翻訳評価指標の使い方

不正解の理由

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル