AIF-C01#62(foundation-models)
企業が Amazon Bedrock からモデルを選択し、社内で利用したいと考えています。この企業は、社員が好むスタイルで応答を生成するモデルを特定する必要があります。 この要件を満たすためには、どのようにすればよいですか?
正解:B
正解の根拠
「社員が好むスタイル」のような主観品質を測るには、人間によるレビューが不可欠です。Bedrock Model Evaluation の Human Evaluation 機能を使い、自社の業務に即したカスタムプロンプトデータセットと人間のワークフォースを組み合わせると、複数モデルの出力を採点して最適なモデルを特定できます。
評価手段の比較
| 手段 | 特徴 |
|---|---|
| Human + Custom dataset | 主観品質を業務文脈で評価 |
| Built-in dataset | 汎用ベンチマーク |
| 外部リーダーボード | 一般評価、業務適合性は不明 |
| InvocationLatency | 応答時間メトリクス |
不正解の理由
- A: 組み込みデータセットは汎用ベンチマーク用で、自社固有のスタイル嗜好を測る評価には精度が不十分です。
- C: 公開リーダーボードは一般タスクのスコアであり、特定企業のトーンや業務嗜好への適合性を直接示すものではありません。
- D: InvocationLatency は応答時間の運用メトリクスで、回答スタイルの質を評価する指標としては不適切です。

コメント