AIF-C01#15(foundation-models)

ある企業がAmazon SageMaker AIを使用して、多言語での記事要約を生成しています。この企業は、多言語での「要約の翻訳品質」を評価するための指標を必要としています。この要件を満たす評価指標はどれですか？

A. ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
B. BLEU (Bilingual Evaluation Understudy)
C. AUC (Area Under the ROC Curve)
D. 適合率 (Precision)

正解：B

正解の根拠

BLEU (Bilingual Evaluation Understudy) は機械翻訳の品質を評価する代表的指標で、生成翻訳と参照訳との n-gram の一致率に基づきスコアを算出します。多言語の翻訳品質評価に広く採用されており、本問の「多言語要約の翻訳品質」評価に最適です。SageMaker や Bedrock の評価ジョブでも翻訳タスク評価に利用されます。

主要評価指標

指標	用途
BLEU	翻訳品質 (n-gram 一致)
ROUGE	要約品質 (再現率重視)
AUC	分類器の識別性能
Precision	分類の適合率

不正解の理由

A: ROUGE は要約タスクでの再現率ベース評価指標で、複数言語間の翻訳品質を測る用途には BLEU の方が標準的です。
C: AUC は二値分類器の識別性能を ROC 曲線下面積で測る指標で、翻訳品質の評価には適用されません。
D: Precision は分類タスクの適合率指標で、翻訳テキストの語句一致度を測る尺度ではありません。

参考：SageMaker FM Evaluation Metrics

AIF-C01#15(foundation-models)

正解の根拠

主要評価指標

不正解の理由

コメント

コメント

コメントするコメントをキャンセル

正解の根拠

主要評価指標

不正解の理由

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル