AIF-C01#71(fundamentals-ai-ml)
ある小売企業が、顧客に商品を推薦(レコメンド)するための機械学習(ML)モデルを構築したいと考えています。同社は、責任ある慣行(responsible practices)に基づいてモデルを構築したいと考えています。 モデルのバイアス(偏り)を減らすために、データ収集時に適用すべき慣行はどれですか?
正解:C
正解の根拠
バイアス低減のためのデータ収集の基本は、バランスの取れた多様なグループを含むデータを集めることです。これにより訓練分布と本番分布の代表性を確保し、特定層への偏りを抑えられます。SageMaker Clarify でデータバイアス指標を測りながらギャップを補う運用が推奨されます。
収集慣行の比較
| 慣行 | 効果 |
|---|---|
| 多様/バランス収集 | バイアス低減 |
| 全顧客層のみ | 潜在ユーザーを除外 |
| 購入履歴ありのみ | 新規顧客を除外 |
| 公開データのみ | 多様性は保証されない |
不正解の理由
- A: 既存全顧客層のみでは将来の新規層を除外し、未知の利用者へのバイアスを生じる恐れがあります。
- B: 購入履歴ありの顧客に限定すると、潜在顧客の特性を反映できず推薦の偏りが拡大します。
- D: 公開データセットを使うこと自体は出所であり、必ずしも多様性やバランスを保証する慣行ではありません。

コメント