AIF-C01#16(fundamentals-generative-ai)

ある企業が生成AIを使用してソリューションを構築しました。このソリューションは、大規模言語モデル（LLM）を活用して、トレーニングマニュアルを英語から他の言語に翻訳します。同社は、マニュアルに対して生成されたテキストを検証することで、ソリューションの正確性を評価したいと考えています。どのモデル評価戦略がこの要件を満たしますか？

A. Recall-Oriented Understudy for Gisting Evaluation (ROUGE)
B. F1スコア
C. 二乗平均平方根誤差 (RMSE)
D. Bilingual Evaluation Understudy (BLEU)

正解と解説ディスカッション 0

正解：D

正解の根拠

BLEU (Bilingual Evaluation Understudy) は機械翻訳の標準評価指標で、機械翻訳出力と参照翻訳の n-gram 一致率を計算します。トレーニングマニュアルの英語→他言語翻訳の品質評価に最適で、SageMaker Foundation Model Evaluation や独立ライブラリで簡単に算出できます。値が 1.0 に近いほど参照訳に近い品質を示します。

評価指標と用途

指標	用途
BLEU	機械翻訳評価
ROUGE	要約評価
F1 スコア	分類評価
RMSE	回帰評価

不正解の理由

A: ROUGE は要約品質の指標で、翻訳評価では BLEU が業界標準として用いられます。
B: F1 スコアは分類タスク (precision/recall) の指標で、翻訳の品質評価には使われません。
C: RMSE は回帰タスクの誤差指標で、テキスト生成評価には適合しません。

参考：SageMaker FM Evaluations

AIF-C01#16(fundamentals-generative-ai)

正解の根拠

評価指標と用途

不正解の理由

コメント

コメント

コメントするコメントをキャンセル

正解の根拠

評価指標と用途

不正解の理由

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル