AIF-C01#18(fundamentals-generative-ai)

AIF-C01#18(fundamentals-generative-ai)
あるソーシャルメディア企業が、大規模言語モデル(LLM)を使用してメッセージを要約しようとしています。同社は、Amazon SageMaker JumpStartで利用可能な複数のLLMを選択しました。同社は、これらのモデルの生成出力の毒性を比較したいと考えています。 運用コストを最小限に抑えつつ、LLMを評価するための戦略はどれですか?

正解:B

正解の根拠

自動モデル評価 (Automatic Model Evaluation) は事前定義された指標 (毒性、堅牢性、精度等) で LLM 出力を機械的にスコアリングする手法で、人手作業を排除できるため運用コストが最も低くなります。SageMaker Clarify FM Evaluations や Bedrock Model Evaluation のサービスで対応しており、複数 LLM の毒性比較に最適です。

LLM 評価戦略の比較

戦略コスト
自動評価最低
クラウドソーシング
人間作業者
RLHF非常に高

不正解の理由

  • A: クラウドソーシング評価はワーカー報酬が発生しコストが高く、自動評価より運用コストが上回ります。
  • C: 人間作業者評価は専属レビュワーへの報酬が発生し、最も人件費が高い選択肢です。
  • D: RLHF は評価でなくモデル微調整の学習手法で、評価戦略としての位置づけが異なります。

参考:SageMaker Clarify FM Evaluations


コメント

コメント

コメントする

目次