AIF-C01#16(fundamentals-ai-ml)

ある企業が生成AIを使用して、英語のトレーニングマニュアルを他の言語に翻訳するソリューションを構築しました。この企業は、生成されたマニュアルのテキストを検証することで、ソリューションの精度を評価したいと考えています。この要件を満たすモデル評価戦略はどれですか？

A. BLEU（BiLingual Evaluation Understudy）
B. RMSE(二乗平均平方根誤差)
C. ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
D. F1スコア

正解と解説ディスカッション 0

正解：A

正解の根拠

BLEU (BiLingual Evaluation Understudy) は機械翻訳の品質評価に標準採用される指標で、生成訳文と参照訳の n-gram 一致率を計算します。マニュアルの英語→他言語翻訳の精度評価に最適で、Bedrock や SageMaker JumpStart で扱う翻訳モデルの自動評価でも一般的に利用されます。

生成系モデル評価指標の用途

指標	用途
BLEU	機械翻訳評価
ROUGE	要約タスク評価
RMSE	回帰の誤差
F1	分類精度

不正解の理由

B: RMSE は連続値予測の誤差評価指標で、翻訳テキストの一致度を直接測るためには使いません。
C: ROUGE は要約タスクで参照との再現率を測る指標で、翻訳評価では BLEU が標準です。
D: F1 は分類タスク向けで、テキスト生成の語句一致を評価する指標ではありません。

参考：Bedrock Model Evaluation

AIF-C01#16(fundamentals-ai-ml)

正解の根拠

生成系モデル評価指標の用途

不正解の理由

コメント

コメント

コメントするコメントをキャンセル

正解の根拠

生成系モデル評価指標の用途

不正解の理由

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル