AIF-C01#29(foundation-models)
ある研究グループが、研究論文を作成するために複数の生成AIモデルをテストしたいと考えています。研究グループはプロンプトを定義し、モデルの出力を評価(assess)する手法を必要としています。また、研究グループは科学者のチームを起用して、出力の評価を実施したいと考えています。 これらの要件を満たすソリューションはどれですか?
正解:C
正解の根拠
Amazon Bedrock Model Evaluation はプロンプトを定義し、複数の FM の出力を自動指標 (BLEU、ROUGE、F1 等) と人間による評価ジョブで比較できる機能です。研究グループの科学者を「Human Evaluation」のワーカーチームとして登録し、出力を評価する運用が可能で、本問の要件に完全合致します。
関連サービスの役割
| サービス | 役割 |
|---|---|
| Bedrock Model Evaluation | FM 評価 (自動+人間) |
| Personalize | レコメンデーション |
| Rekognition | 画像/動画解析 |
| Comprehend | NLP 分析 |
不正解の理由
- A: Personalize はパーソナライズドレコメンデーション専用で、生成 AI モデルの出力評価ジョブを提供する機能ではありません。
- B: Rekognition は画像/動画の物体検出・モデレーション機能で、生成 AI モデル間の比較評価には対応しません。
- D: Comprehend は感情分析等の NLP 機能で、複数 FM のプロンプト評価や人間レビュー機能は備えていません。

コメント