这篇 Nature 论文可以说引爆了深度强化学习。它介绍了 Deep Q-Networks (DQN) 算法,并且在 49 个 Atari 游戏上取得了很好的性能:基本都超越了以前的算法,大部分比职业玩家要好。这一算法的突出贡献是,在 Q-learning 中引入了深度神经网络,并且通过 experience replay 和 target network 技术稳定学习过程。而在此之前,普遍认为非线性函数近似与 Q-learning 结合就会有不收敛等问题。DQN 使用了端到端机制:输入是游戏几帧的像素,输出是操作策略,中间不需要人为进行特征标记工程。更令人惊讶的是,它用一个神经网络结构,一套超参数设置,就可以玩好 49 个游戏。DQN算法出现之后,许多改进版本和其它Deep RL工作也相继出现。
Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A. Rusu, Joel Veness, Marc G. Bellemare, Alex Graves, Martin Riedmiller, Andreas K. Fidjeland, Georg Ostrovski, Stig Pe- tersen, Charles Beattie, Amir Sadik, Ioannis Antonoglou, Helen King, Dharshan Kumaran, Daan Wierstra, Shane Legg, and Demis Hassabis. Human-level control through deep reinforcement learning. Nature, 518(7540):529–533, 02 2015. URL http://dx.doi.org/10.1038/ nature14236.
点击链接阅读: http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html
摘要:
强化学习理论为动物行为提供了一个根植于心理学和神经科学视角的规范化解释,它告诉我们主体(agent)是如何优化他们对环境的控制。然而,为了在接近现实复杂性的情况下成功地使用强化学习,主体面临着一个艰巨的任务:他们必须从高维的感官输入的环境中获得有效的表征,并使用这些表征来将过去的经验应用到新的情境中。值得注意的是,人类和其他动物看起来已经通过结合强化学习和等级知觉处理系统解决了这个问题。人类身上体现出的强化学习理论被丰富的神经数据证实,这些神经数据揭示了多巴胺能神经元释放的相位信号与时域差分强化学习算法之间的显着相似之处。
虽然强化学习的主体已经在多个领域实现了一些成功,但是它们的应用一直局限于只能指定有用表征的领域,或者能被完全观察的低维状态空间中。我们使用了最近在神经元训练上取得了一些进展,开发出一个新型人工主体,称为 deep Q-network,它可以使用端到端的强化学习,直接从高维知觉输入中学习成功的策略。我们用经典 Atari2600 游戏中具有挑战性的领域测试了这个主体。我们证明,只接收像素和游戏得分作为输入的 deep Q-network 的表现,能超越之前所有算法,并在一组 49 场比赛中达到了相当于专业人类游戏测试者的水平。DQN 使用同样的算法、网络架构和超参数。这个成果在高维知觉输入和行为之间架起了一座桥梁,创造出了世界上第一个具备学习执行多元化的挑战任务能力的人工主体。
参考资料:
Demystifying Deep Reinforcement Learning
Going Deeper Into Reinforcement Learning: Understanding Deep-Q-Networks
F rame Skipping and Pre-Processing for Deep Q-Networks on Atari 2600 Games
h ttps://github.com/spragunr/deep_q_rl
U sing Deep Q-Network to Learn How To Play Flappy Bird
一些对DQN的扩展
Deep Reinforcement Learning with Double Q-learning
Prioritized Experience Replay
Dueling Network Architectures for Deep Reinforcement Learning
Continuous control with deep reinforcement learning
Asynchronous Methods for Deep Reinforcement Learning
推荐者介绍:
本期研习材料由 Yuxi Li 博士推荐。 Yuxi Li 博士是加拿大阿尔伯塔大学(University of Alberta)计算机系博士、博士后。 致力于深度学习、强化学习、机器学习、人工智能等前沿技术及其应用。曾任电子科技大学副教授;在美国波士顿任资深数据科学家等。 目前在筹备深度学习相关的创业项目。Yuxi Li 博士也将在组内参与专家答疑。
机器之心曾经发表过的介绍强化学习的文章:
深度学习漫游指南:强化学习概览
深度解读AlphaGo胜利背后的力量:强化学习
ACM 最新月刊文章:强化学习的复兴
谷歌总结深度强化学习,人工智能代理表现已达人类水平
神经网络和深度学习简史(三):强化学习与递归神经网络
对于强化学习这样一个既有历史沉淀又有未来前景的技术领域,你一定充满了好奇和想要学习的渴望。也许你在机器学习和计算机方面已经有了一定的技术积累,但要进入一个新的领域,你可能还是常常感到:
找不到合适的学习资料
有学习动力,但无法坚持
学习效果无法评估
遇到问题缺乏讨论和解答的途径
因此,为了帮助“强化学习新手”进入这一领域,机器之心发起了一个互助式学习小组——「人工智能研学社· 强化学习组」。本小组将通过优质资料分享、教材研习、论文阅读、群组讨论、专家答疑、讲座与分享等形式加强参与者对强化学习和深度学习的理解和认知。
面向人群:有一定的机器学习技术基础,在强化学习方面处于学习阶段的学习者
学习形式:学习资料推荐、统一进度学习(教材或论文)、群组讨论、专家答疑、讲座等。
加入方式:
添加 机器之心小助手 微信,并注明:加入强化学习组
完成小助手发送的入群测试(题目会根据每期内容变化),并提交答案,以及其他相关资料(教育背景 、从事行业和职务 、人工智能学习经历等)
小助手将邀请成功通过测试的朋友进入「人工智能研学社· 强化学习组」
1)教育背景 2)从事行业和职务 3)人工智能学习经历 4)强化学习学习经历
监督学习与强化学习的区别是什么?
为什么 Q-learning 与函数近似结合会发散?如何解决?
What are the differences between supervised learning and reinforcement learning?
Why Q-learning tends to be divergent when combined with function approximation? How to solve it?
点击这里可以填写入群Quiz表格: http://form.mikecrm.com/uUt2nB