用語辞典に戻る
RLReinforcement Learning
強化学習(きょうかがくしゅう)
中級Core Concepts
環境内での行動に対する報酬やペナルティを受けてエージェントが意思決定を学習する機械学習の手法。
なぜ重要か
RLはゲームAI、ロボティクスを支え、言語モデルと人間の好みの整合(RLHF)の鍵となります。
実際の活用例
DeepMindのAlphaGoが自分自身と数百万回対局して囲碁を学習した例。
強化学習(きょうかがくしゅう)
環境内での行動に対する報酬やペナルティを受けてエージェントが意思決定を学習する機械学習の手法。
RLはゲームAI、ロボティクスを支え、言語モデルと人間の好みの整合(RLHF)の鍵となります。
DeepMindのAlphaGoが自分自身と数百万回対局して囲碁を学習した例。