AIF-C01#18(fundamentals-ai-ml)

AIF-C01#18(fundamentals-ai-ml)
ある企業が、カスタマーサービス用のチャットボットを構築しています。同社は、このチャットボットが過去のインタラクションやオンラインリソースから学習し、応答を改善できるようにしたいと考えています。 この自己改善能力を提供するAI学習戦略はどれですか?

正解:B

正解の根拠

応答結果に対するユーザーのポジティブ/ネガティブフィードバックを報酬信号として方策を改善する仕組みは強化学習 (とくに RLHF: Reinforcement Learning from Human Feedback) の典型です。継続的に対話ログから報酬を与え、応答方策を更新することで、モデルが自己改善し、よりユーザーに好まれる応答を返すようになります。

学習戦略の比較

戦略特徴
強化学習 (RLHF)報酬で方策を継続改善
教師あり静的ラベルでの学習
教師なしクラスタリング等
FAQ 教師あり事前データに依存

不正解の理由

  • A: 静的なデータセットで教師あり学習しても継続的な自己改善ループは構築できず、要件と一致しません。
  • C: 教師なし学習は問い合わせの構造把握には有効ですが、応答品質の自己改善ループの主軸ではありません。
  • D: FAQ 更新型の教師あり学習は人手依存が大きく、報酬信号で自律改善する仕組みではありません。

参考:SageMaker RL


コメント

コメント

コメントする

目次