AIF-C01#13(fundamentals-ai-ml)
ある企業が Amazon Bedrock を使用して生成型テキスト要約モデルを開発しました。同社は Amazon Bedrock の自動モデル評価機能を使用する予定です。 モデルの精度を評価するために使用すべき指標はどれですか?
正解:C
正解の根拠
Bedrock Model Evaluation の自動評価で、テキスト要約タスクの精度評価には BERT スコアが使用されます。BERT スコアは BERT 埋め込みのコサイン類似度で生成文と参照文の意味的近さを測るため、語順違いや言い換えにロバストで、要約品質評価に適しています。
主要評価指標の用途
| 指標 | 用途 |
|---|---|
| BERTScore | 意味類似度 (要約等) |
| F1 | 分類タスク |
| AUC | 2 値分類のランキング |
| BLEU/ROUGE | 翻訳/要約のn-gram評価 |
不正解の理由
- A: AUC は 2 値分類モデルのランキング性能を測る指標で、生成テキスト評価には用いません。
- B: F1 は分類タスクで適合率と再現率の調和平均を取る指標で、生成要約の評価指標としては不適切です。
- D: RWK スコアは Bedrock 自動評価で扱う標準指標ではなく、本質問の選択肢として正解にはなりません。

コメント