AIF-C01#62(foundation-models)

企業が Amazon Bedrock からモデルを選択し、社内で利用したいと考えています。この企業は、社員が好むスタイルで応答を生成するモデルを特定する必要があります。この要件を満たすためには、どのようにすればよいですか？

A. 組み込みのプロンプトデータセットを使用してモデルを評価する
B. 人間のワークフォースとカスタムプロンプトデータセットを使用してモデルを評価する
C. 公開されているモデルのリーダーボードを使用してモデルを特定する
D. Amazon CloudWatch の InvocationLatency 実行時メトリクスを使用してモデルを試す

正解：B

正解の根拠

「社員が好むスタイル」のような主観品質を測るには、人間によるレビューが不可欠です。Bedrock Model Evaluation の Human Evaluation 機能を使い、自社の業務に即したカスタムプロンプトデータセットと人間のワークフォースを組み合わせると、複数モデルの出力を採点して最適なモデルを特定できます。

評価手段の比較

手段	特徴
Human + Custom dataset	主観品質を業務文脈で評価
Built-in dataset	汎用ベンチマーク
外部リーダーボード	一般評価、業務適合性は不明
InvocationLatency	応答時間メトリクス

不正解の理由

A: 組み込みデータセットは汎用ベンチマーク用で、自社固有のスタイル嗜好を測る評価には精度が不十分です。
C: 公開リーダーボードは一般タスクのスコアであり、特定企業のトーンや業務嗜好への適合性を直接示すものではありません。
D: InvocationLatency は応答時間の運用メトリクスで、回答スタイルの質を評価する指標としては不適切です。

参考：Bedrock Human Evaluation

AIF-C01#62(foundation-models)

正解の根拠

評価手段の比較

不正解の理由

コメント

コメント

コメントするコメントをキャンセル

正解の根拠

評価手段の比較

不正解の理由

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル