AIF-C01#18(fundamentals-generative-ai)
あるソーシャルメディア企業が、大規模言語モデル(LLM)を使用してメッセージを要約しようとしています。同社は、Amazon SageMaker JumpStartで利用可能な複数のLLMを選択しました。同社は、これらのモデルの生成出力の毒性を比較したいと考えています。 運用コストを最小限に抑えつつ、LLMを評価するための戦略はどれですか?
正解:B
正解の根拠
自動モデル評価 (Automatic Model Evaluation) は事前定義された指標 (毒性、堅牢性、精度等) で LLM 出力を機械的にスコアリングする手法で、人手作業を排除できるため運用コストが最も低くなります。SageMaker Clarify FM Evaluations や Bedrock Model Evaluation のサービスで対応しており、複数 LLM の毒性比較に最適です。
LLM 評価戦略の比較
| 戦略 | コスト |
|---|---|
| 自動評価 | 最低 |
| クラウドソーシング | 中 |
| 人間作業者 | 高 |
| RLHF | 非常に高 |
不正解の理由
- A: クラウドソーシング評価はワーカー報酬が発生しコストが高く、自動評価より運用コストが上回ります。
- C: 人間作業者評価は専属レビュワーへの報酬が発生し、最も人件費が高い選択肢です。
- D: RLHF は評価でなくモデル微調整の学習手法で、評価戦略としての位置づけが異なります。

コメント