AIF-C01#16(fundamentals-generative-ai)

AIF-C01#16(fundamentals-generative-ai)
ある企業が生成AIを使用してソリューションを構築しました。このソリューションは、大規模言語モデル(LLM)を活用して、トレーニングマニュアルを英語から他の言語に翻訳します。同社は、マニュアルに対して生成されたテキストを検証することで、ソリューションの正確性を評価したいと考えています。 どのモデル評価戦略がこの要件を満たしますか?

正解:D

正解の根拠

BLEU (Bilingual Evaluation Understudy) は機械翻訳の標準評価指標で、機械翻訳出力と参照翻訳の n-gram 一致率を計算します。トレーニングマニュアルの英語→他言語翻訳の品質評価に最適で、SageMaker Foundation Model Evaluation や独立ライブラリで簡単に算出できます。値が 1.0 に近いほど参照訳に近い品質を示します。

評価指標と用途

指標用途
BLEU機械翻訳評価
ROUGE要約評価
F1 スコア分類評価
RMSE回帰評価

不正解の理由

  • A: ROUGE は要約品質の指標で、翻訳評価では BLEU が業界標準として用いられます。
  • B: F1 スコアは分類タスク (precision/recall) の指標で、翻訳の品質評価には使われません。
  • C: RMSE は回帰タスクの誤差指標で、テキスト生成評価には適合しません。

参考:SageMaker FM Evaluations


コメント

コメント

コメントする

目次