AIF-C01#18(fundamentals-generative-ai)

あるソーシャルメディア企業が、大規模言語モデル（LLM）を使用してメッセージを要約しようとしています。同社は、Amazon SageMaker JumpStartで利用可能な複数のLLMを選択しました。同社は、これらのモデルの生成出力の毒性を比較したいと考えています。運用コストを最小限に抑えつつ、LLMを評価するための戦略はどれですか？

A. クラウドソーシング評価
B. 自動モデル評価
C. 人間作業者によるモデル評価
D. 人間のフィードバックを用いた強化学習（RLHF）

正解と解説ディスカッション 0

正解：B

正解の根拠

自動モデル評価 (Automatic Model Evaluation) は事前定義された指標 (毒性、堅牢性、精度等) で LLM 出力を機械的にスコアリングする手法で、人手作業を排除できるため運用コストが最も低くなります。SageMaker Clarify FM Evaluations や Bedrock Model Evaluation のサービスで対応しており、複数 LLM の毒性比較に最適です。

LLM 評価戦略の比較

戦略	コスト
自動評価	最低
クラウドソーシング	中
人間作業者	高
RLHF	非常に高

不正解の理由

A: クラウドソーシング評価はワーカー報酬が発生しコストが高く、自動評価より運用コストが上回ります。
C: 人間作業者評価は専属レビュワーへの報酬が発生し、最も人件費が高い選択肢です。
D: RLHF は評価でなくモデル微調整の学習手法で、評価戦略としての位置づけが異なります。

参考：SageMaker Clarify FM Evaluations

AIF-C01#18(fundamentals-generative-ai)

正解の根拠

LLM 評価戦略の比較

不正解の理由

コメント

コメント

コメントするコメントをキャンセル

正解の根拠

LLM 評価戦略の比較

不正解の理由

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル