AIF-C01#16(fundamentals-ai-ml)

AIF-C01#16(fundamentals-ai-ml)
ある企業が生成AIを使用して、英語のトレーニングマニュアルを他の言語に翻訳するソリューションを構築しました。この企業は、生成されたマニュアルのテキストを検証することで、ソリューションの精度を評価したいと考えています。この要件を満たすモデル評価戦略はどれですか?

正解:A

正解の根拠

BLEU (BiLingual Evaluation Understudy) は機械翻訳の品質評価に標準採用される指標で、生成訳文と参照訳の n-gram 一致率を計算します。マニュアルの英語→他言語翻訳の精度評価に最適で、Bedrock や SageMaker JumpStart で扱う翻訳モデルの自動評価でも一般的に利用されます。

生成系モデル評価指標の用途

指標用途
BLEU機械翻訳評価
ROUGE要約タスク評価
RMSE回帰の誤差
F1分類精度

不正解の理由

  • B: RMSE は連続値予測の誤差評価指標で、翻訳テキストの一致度を直接測るためには使いません。
  • C: ROUGE は要約タスクで参照との再現率を測る指標で、翻訳評価では BLEU が標準です。
  • D: F1 は分類タスク向けで、テキスト生成の語句一致を評価する指標ではありません。

参考:Bedrock Model Evaluation


コメント

コメント

コメントする

目次