AIF-C01#98(fundamentals-ai-ml)
あるソーシャルメディア企業が、コンテンツモデレーションに大規模言語モデル(LLM)を使用したいと考えています。同社は、LLMの出力を評価し、特定のグループや個人に対するバイアスや潜在的な差別を確認したいと考えています。 最小限の管理作業でLLM出力を評価するには、どのデータソースを使用すべきですか?
正解:D
正解の根拠
ベンチマークデータセットは LLM 評価用に標準化された既知ラベル付きデータで、BOLD・StereoSet・CrowS-Pairs などバイアスや差別性を計測する公開データセットが利用できます。SageMaker Clarify や Bedrock Model Evaluation でベンチマークを使った自動評価ができ、最小限の管理作業でバイアス確認が可能です。
評価データソースの比較
| ソース | 運用負荷 |
|---|---|
| ベンチマークデータセット | 低 (標準化済) |
| ユーザー生成コンテンツ | 高 (ラベル付け要) |
| モデレーションログ | 中 (内部整理要) |
| ガイドライン | テキスト基準 (自動評価不可) |
不正解の理由
- A: ユーザー生成コンテンツはラベル付けや前処理が必要で、最小限の管理作業という要件には合いません。
- B: モデレーションログは社内固有の整理が必要で、標準化されたバイアス評価としての即時利用には向きません。
- C: ガイドラインは人間向けポリシー文書で、定量評価データセットとして直接 LLM の出力評価には使えません。

コメント