Question#4(Generative AI Leader)
ある企業が、ビデオゲーム用の AI キャラクターを開発しています。この AI キャラクターは、複雑な環境を移動し、ゲーム内で特定の目標を達成するための意思決定を学習する必要があります。AI は、報酬の発見や障害物の克服など、ポジティブな結果につながる行動を取ると正のスコアを受け取り、壁にぶつかる、進行が失われるなどのネガティブな結果につながる行動を取ると負のスコアを受け取ります。この試行錯誤のプロセスを通じて、AI は徐々にキャラクターのゲームプレイ能力を向上させます。企業はどの機械学習手法を使用すべきですか。
正解:B
このシナリオは「試行錯誤を通じて、正の報酬や負の罰則を基に行動を改善する」という特徴を持っており、これは強化学習の典型的な例です。強化学習では、エージェント(ここではゲーム内の AI キャラクター)が環境と相互作用しながら、報酬を最大化するための行動方針(policy)を学習します。Google Cloud の AI 関連用語でも「強化学習」はこのような報酬信号に基づく学習手法として定義されています。
コメント