AIF-C01#15(foundation-models)

AIF-C01#15(foundation-models)
ある企業がAmazon SageMaker AIを使用して、多言語での記事要約を生成しています。この企業は、多言語での「要約の翻訳品質」を評価するための指標を必要としています。 この要件を満たす評価指標はどれですか?

正解:B

正解の根拠

BLEU (Bilingual Evaluation Understudy) は機械翻訳の品質を評価する代表的指標で、生成翻訳と参照訳との n-gram の一致率に基づきスコアを算出します。多言語の翻訳品質評価に広く採用されており、本問の「多言語要約の翻訳品質」評価に最適です。SageMaker や Bedrock の評価ジョブでも翻訳タスク評価に利用されます。

主要評価指標

指標用途
BLEU翻訳品質 (n-gram 一致)
ROUGE要約品質 (再現率重視)
AUC分類器の識別性能
Precision分類の適合率

不正解の理由

  • A: ROUGE は要約タスクでの再現率ベース評価指標で、複数言語間の翻訳品質を測る用途には BLEU の方が標準的です。
  • C: AUC は二値分類器の識別性能を ROC 曲線下面積で測る指標で、翻訳品質の評価には適用されません。
  • D: Precision は分類タスクの適合率指標で、翻訳テキストの語句一致度を測る尺度ではありません。

参考:SageMaker FM Evaluation Metrics


コメント

コメント

コメントする

目次