学习步骤:
研读材料
自学要点
Mnih 等人提出了四个强化学习方法的异步方法,包括 Q-learning、SARSA、n-step Q-learning、高级 actor-critic 算法。其中,异步的高级 actor-critic (A3C) 算法的表现最好。并行的执行器使用不同的探索策略来稳定训练过程,所以经历回放 (experience replay) 并没有被使用。与大多数深度学习算法不同,异步方法能够在单个多核 CPU 上运行。以 Atari 游戏为例,A3C 能够在更快的速度下,表现得与之前的算法旗鼓相当,甚至更好。A3C 在连续动态控制问题上也取得了成功:包括赛车游戏 TORCS、物理控制游戏 MujoCo、以及迷宫游戏 Labyrinth。在 Labyrinth 中,随机的 3D 迷宫直接通过视觉输入,每一个章节中,玩家都要面对全新的迷宫,因此该算法也需要学习一个能够探索随机迷宫的指导性战略。
论文链接: https://arxiv.org/pdf/1602.01783.pdf
Sutton new book Chapter 13, Policy Gradient Methods
David Silver, Reinforcement Learning, Lecture 7
Simple Reinforcement Learning with Tensorflow Part 8: Asynchronous Actor-Critic Agents (A3C)
本期研习材料由 Yuxi Li 博士推荐。 Yuxi Li 博士是加拿大阿尔伯塔大学(University of Alberta)计算机系博士、博士后。 致力于深度学习、强化学习、机器学习、人工智能等前沿技术及其应用。曾任电子科技大学副教授;在美国波士顿任资深数据科学家等。 目前在筹备深度学习相关的创业项目。Yuxi Li 博士也将参与专家答疑。
机器之心曾经发表过的介绍强化学习的文章:
深度学习漫游指南:强化学习概览
深度解读AlphaGo胜利背后的力量:强化学习
ACM 最新月刊文章:强化学习的复兴
谷歌总结深度强化学习,人工智能代理表现已达人类水平
神经网络和深度学习简史(三):强化学习与递归神经网络
深度强化学习综述:从AlphaGo背后的力量到学习资源分享
对于强化学习这样一个既有历史沉淀又有未来前景的技术领域,你一定充满了好奇和想要学习的渴望。也许你在机器学习和计算机方面已经有了一定的技术积累,但要进入一个新的领域,你可能还是常常感到:
找不到合适的学习资料
有学习动力,但无法坚持
学习效果无法评估
遇到问题缺乏讨论和解答的途径
因此,为了帮助“强化学习新手”进入这一领域,机器之心发起了一个互助式学习小组——「人工智能研学社· 强化学习组」。本小组将通过优质资料分享、教材研习、论文阅读、群组讨论、专家答疑、讲座与分享等形式加强参与者对强化学习和深度学习的理解和认知。
面向人群:有一定的机器学习技术基础,在强化学习方面处于学习阶段的学习者
学习形式:学习资料推荐、统一进度学习(教材或论文)、群组讨论、专家答疑、讲座等。
加入方式:
添加 机器之心小助手 微信,并注明:加入强化学习组
完成小助手发送的入群测试(题目会根据每期内容变化),并提交答案,以及其他相关资料(教育背景 、从事行业和职务 、人工智能学习经历等)
小助手将邀请成功通过测试的朋友进入「人工智能研学社· 强化学习组」
1)教育背景 2)从事行业和职务 3)人工智能学习经历 4)强化学习学习经历
请解释:什么是 actor-critic 方法?
在异步方法中,为什么我们不需要通过经历回放 (experience replay) 来稳定学习过程?