AIF-C01#18(fundamentals-ai-ml)

ある企業が、カスタマーサービス用のチャットボットを構築しています。同社は、このチャットボットが過去のインタラクションやオンラインリソースから学習し、応答を改善できるようにしたいと考えています。この自己改善能力を提供するAI学習戦略はどれですか？

A. 良い応答と悪い応答の手動で作成されたデータセットを用いた教師あり学習
B. 顧客からのポジティブなフィードバックに対する報酬を用いた強化学習
C. 類似した顧客問い合わせのクラスターを見つけるための教師なし学習
D. 継続的に更新されるFAQデータベースを用いた教師あり学習

正解と解説ディスカッション 0

正解：B

正解の根拠

応答結果に対するユーザーのポジティブ/ネガティブフィードバックを報酬信号として方策を改善する仕組みは強化学習 (とくに RLHF: Reinforcement Learning from Human Feedback) の典型です。継続的に対話ログから報酬を与え、応答方策を更新することで、モデルが自己改善し、よりユーザーに好まれる応答を返すようになります。

学習戦略の比較

戦略	特徴
強化学習 (RLHF)	報酬で方策を継続改善
教師あり	静的ラベルでの学習
教師なし	クラスタリング等
FAQ 教師あり	事前データに依存

不正解の理由

A: 静的なデータセットで教師あり学習しても継続的な自己改善ループは構築できず、要件と一致しません。
C: 教師なし学習は問い合わせの構造把握には有効ですが、応答品質の自己改善ループの主軸ではありません。
D: FAQ 更新型の教師あり学習は人手依存が大きく、報酬信号で自律改善する仕組みではありません。

参考：SageMaker RL

AIF-C01#18(fundamentals-ai-ml)

正解の根拠

学習戦略の比較

不正解の理由

コメント

コメント

コメントするコメントをキャンセル

正解の根拠

学習戦略の比較

不正解の理由

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル