AIF-C01#62(fundamentals-ai-ml)
ある食品サービス企業が、顧客の好みを予測するためのデータセットを収集したいと考えています。同社は、あらゆる層(すべてのデモグラフィック:性別、年齢、地域など)の食の好みがデータに含まれていることを確実にしたいと考えています。 このシナリオが示しているデータセットの特性はどれですか?
正解:B
正解の根拠
性別・年齢・地域などあらゆる層を網羅したデータを集める姿勢は、データセットの多様性 (Diversity) を確保する取り組みです。多様性の高い訓練データはモデルバイアスを抑え、責任ある AI の公平性原則の基礎となります。SageMaker Clarify でデータバイアス指標を計測することも併用できます。
データセット特性
| 特性 | 意味 |
|---|---|
| 多様性 | 幅広い属性を網羅 |
| 正確性 | 値の誤りが少ない |
| 直近バイアス | 新しいデータに偏る現象 |
| 信頼性 | 取得手順の堅牢性 |
不正解の理由
- A: 正確性はデータの値の誤りの少なさを示し、層の網羅という属性的広がりとは別の評価軸です。
- C: 直近バイアスは新しいデータに偏る欠点を示す概念で、目指すべき特性ではなく回避対象です。
- D: 信頼性は取得元やプロセスの堅牢さを示す軸で、デモグラフィック網羅の特性そのものではありません。

コメント