AIF-C01#62(foundation-models)

AIF-C01#62(foundation-models)
企業が Amazon Bedrock からモデルを選択し、社内で利用したいと考えています。この企業は、社員が好むスタイルで応答を生成するモデルを特定する必要があります。 この要件を満たすためには、どのようにすればよいですか?

正解:B

正解の根拠

「社員が好むスタイル」のような主観品質を測るには、人間によるレビューが不可欠です。Bedrock Model Evaluation の Human Evaluation 機能を使い、自社の業務に即したカスタムプロンプトデータセットと人間のワークフォースを組み合わせると、複数モデルの出力を採点して最適なモデルを特定できます。

評価手段の比較

手段特徴
Human + Custom dataset主観品質を業務文脈で評価
Built-in dataset汎用ベンチマーク
外部リーダーボード一般評価、業務適合性は不明
InvocationLatency応答時間メトリクス

不正解の理由

  • A: 組み込みデータセットは汎用ベンチマーク用で、自社固有のスタイル嗜好を測る評価には精度が不十分です。
  • C: 公開リーダーボードは一般タスクのスコアであり、特定企業のトーンや業務嗜好への適合性を直接示すものではありません。
  • D: InvocationLatency は応答時間の運用メトリクスで、回答スタイルの質を評価する指標としては不適切です。

参考:Bedrock Human Evaluation


コメント

コメント

コメントする

目次