转载

「人工智能研学社· 强化学习组」第三期: 效率强者 - 异步方法

本期研读论文: Asynchronous Methods for Deep Reinforcement 

Learning (ICML 2016)

学习步骤:

  1. 研读材料

  2. 自学要点

【文章简介】

「人工智能研学社· 强化学习组」第三期: 效率强者 - 异步方法

Mnih 等人提出了四个强化学习方法的异步方法,包括 Q-learning、SARSA、n-step Q-learning、高级 actor-critic 算法。其中,异步的高级 actor-critic (A3C) 算法的表现最好。并行的执行器使用不同的探索策略来稳定训练过程,所以经历回放 (experience replay) 并没有被使用。与大多数深度学习算法不同,异步方法能够在单个多核 CPU 上运行。以 Atari 游戏为例,A3C 能够在更快的速度下,表现得与之前的算法旗鼓相当,甚至更好。A3C 在连续动态控制问题上也取得了成功:包括赛车游戏 TORCS、物理控制游戏 MujoCo、以及迷宫游戏 Labyrinth。在 Labyrinth 中,随机的 3D 迷宫直接通过视觉输入,每一个章节中,玩家都要面对全新的迷宫,因此该算法也需要学习一个能够探索随机迷宫的指导性战略。

论文链接: https://arxiv.org/pdf/1602.01783.pdf

【其它阅读材料】

  1. Sutton new book Chapter 13, Policy Gradient Methods

  2. David Silver, Reinforcement Learning, Lecture 7

  3. Simple Reinforcement Learning with Tensorflow Part 8: Asynchronous Actor-Critic Agents (A3C)

推荐者介绍:

本期研习材料由 Yuxi Li 博士推荐。 Yuxi Li 博士是加拿大阿尔伯塔大学(University of Alberta)计算机系博士、博士后。 致力于深度学习、强化学习、机器学习、人工智能等前沿技术及其应用。曾任电子科技大学副教授;在美国波士顿任资深数据科学家等。 目前在筹备深度学习相关的创业项目。Yuxi Li 博士也将参与专家答疑。

机器之心曾经发表过的介绍强化学习的文章:

  • 深度学习漫游指南:强化学习概览

  • 深度解读AlphaGo胜利背后的力量:强化学习

  • ACM 最新月刊文章:强化学习的复兴

  • 谷歌总结深度强化学习,人工智能代理表现已达人类水平

  • 神经网络和深度学习简史(三):强化学习与递归神经网络

  • 深度强化学习综述:从AlphaGo背后的力量到学习资源分享

加入机器之心强化学习小组:

对于强化学习这样一个既有历史沉淀又有未来前景的技术领域,你一定充满了好奇和想要学习的渴望。也许你在机器学习和计算机方面已经有了一定的技术积累,但要进入一个新的领域,你可能还是常常感到:

  1. 找不到合适的学习资料

  2. 有学习动力,但无法坚持

  3. 学习效果无法评估

  4. 遇到问题缺乏讨论和解答的途径

因此,为了帮助“强化学习新手”进入这一领域,机器之心发起了一个互助式学习小组——「人工智能研学社· 强化学习组」。本小组将通过优质资料分享、教材研习、论文阅读、群组讨论、专家答疑、讲座与分享等形式加强参与者对强化学习和深度学习的理解和认知。

  • 面向人群:有一定的机器学习技术基础,在强化学习方面处于学习阶段的学习者

  • 学习形式:学习资料推荐、统一进度学习(教材或论文)、群组讨论、专家答疑、讲座等。

  • 加入方式:

  1. 添加 机器之心小助手 微信,并注明:加入强化学习组

    「人工智能研学社· 强化学习组」第三期: 效率强者 - 异步方法

  2. 完成小助手发送的入群测试(题目会根据每期内容变化),并提交答案,以及其他相关资料(教育背景 、从事行业和职务 、人工智能学习经历等)

  3. 小助手将邀请成功通过测试的朋友进入「人工智能研学社· 强化学习组」

入群测试 QUIZ

1)教育背景 2)从事行业和职务 3)人工智能学习经历 4)强化学习学习经历

  1. 请解释:什么是 actor-critic 方法?

  2. 在异步方法中,为什么我们不需要通过经历回放 (experience replay) 来稳定学习过程?

原文  http://www.jiqizhixin.com/article/2235
正文到此结束
Loading...