AIF-C01#29(foundation-models)

ある研究グループが、研究論文を作成するために複数の生成AIモデルをテストしたいと考えています。研究グループはプロンプトを定義し、モデルの出力を評価（assess）する手法を必要としています。また、研究グループは科学者のチームを起用して、出力の評価を実施したいと考えています。これらの要件を満たすソリューションはどれですか？

A. Amazon Personalize で自動評価（automatic evaluation）を使用する。
B. Amazon Rekognition でコンテンツモデレーション（content moderation）を使用する。
C. Amazon Bedrock でモデル評価（model evaluation）を使用する。
D. Amazon Comprehend で感情分析（sentiment analysis）を使用する。

正解と解説ディスカッション 0

正解：C

正解の根拠

Amazon Bedrock Model Evaluation はプロンプトを定義し、複数の FM の出力を自動指標 (BLEU、ROUGE、F1 等) と人間による評価ジョブで比較できる機能です。研究グループの科学者を「Human Evaluation」のワーカーチームとして登録し、出力を評価する運用が可能で、本問の要件に完全合致します。

サービス	役割
Bedrock Model Evaluation	FM 評価 (自動+人間)
Personalize	レコメンデーション
Rekognition	画像/動画解析
Comprehend	NLP 分析

不正解の理由

A: Personalize はパーソナライズドレコメンデーション専用で、生成 AI モデルの出力評価ジョブを提供する機能ではありません。
B: Rekognition は画像/動画の物体検出・モデレーション機能で、生成 AI モデル間の比較評価には対応しません。
D: Comprehend は感情分析等の NLP 機能で、複数 FM のプロンプト評価や人間レビュー機能は備えていません。

参考：Bedrock Model Evaluation

AIF-C01#29(foundation-models)

正解の根拠

関連サービスの役割

不正解の理由

コメント

コメント

コメントするコメントをキャンセル

正解の根拠

関連サービスの役割

不正解の理由

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル