AIF-C01#18(fundamentals-ai-ml)
ある企業が、カスタマーサービス用のチャットボットを構築しています。同社は、このチャットボットが過去のインタラクションやオンラインリソースから学習し、応答を改善できるようにしたいと考えています。 この自己改善能力を提供するAI学習戦略はどれですか?
正解:B
正解の根拠
応答結果に対するユーザーのポジティブ/ネガティブフィードバックを報酬信号として方策を改善する仕組みは強化学習 (とくに RLHF: Reinforcement Learning from Human Feedback) の典型です。継続的に対話ログから報酬を与え、応答方策を更新することで、モデルが自己改善し、よりユーザーに好まれる応答を返すようになります。
学習戦略の比較
| 戦略 | 特徴 |
|---|---|
| 強化学習 (RLHF) | 報酬で方策を継続改善 |
| 教師あり | 静的ラベルでの学習 |
| 教師なし | クラスタリング等 |
| FAQ 教師あり | 事前データに依存 |
不正解の理由
- A: 静的なデータセットで教師あり学習しても継続的な自己改善ループは構築できず、要件と一致しません。
- C: 教師なし学習は問い合わせの構造把握には有効ですが、応答品質の自己改善ループの主軸ではありません。
- D: FAQ 更新型の教師あり学習は人手依存が大きく、報酬信号で自律改善する仕組みではありません。
参考:SageMaker RL

コメント