转载

发表于 2017年02月06日
浏览 (823)
评论 (0)

「人工智能研学社· 强化学习组」第三期：效率强者 - 异步方法

本期研读论文： Asynchronous Methods for Deep Reinforcement

Learning (ICML 2016)

学习步骤：

研读材料
自学要点

【文章简介】

「人工智能研学社· 强化学习组」第三期：效率强者 - 异步方法

Mnih 等人提出了四个强化学习方法的异步方法，包括 Q-learning、SARSA、n-step Q-learning、高级 actor-critic 算法。其中，异步的高级 actor-critic (A3C) 算法的表现最好。并行的执行器使用不同的探索策略来稳定训练过程，所以经历回放 (experience replay) 并没有被使用。与大多数深度学习算法不同，异步方法能够在单个多核 CPU 上运行。以 Atari 游戏为例，A3C 能够在更快的速度下，表现得与之前的算法旗鼓相当，甚至更好。A3C 在连续动态控制问题上也取得了成功：包括赛车游戏 TORCS、物理控制游戏 MujoCo、以及迷宫游戏 Labyrinth。在 Labyrinth 中，随机的 3D 迷宫直接通过视觉输入，每一个章节中，玩家都要面对全新的迷宫，因此该算法也需要学习一个能够探索随机迷宫的指导性战略。

论文链接： https://arxiv.org/pdf/1602.01783.pdf

【其它阅读材料】

Sutton new book Chapter 13, Policy Gradient Methods
David Silver, Reinforcement Learning, Lecture 7
Simple Reinforcement Learning with Tensorflow Part 8: Asynchronous Actor-Critic Agents (A3C)

推荐者介绍:

本期研习材料由 Yuxi Li 博士推荐。 Yuxi Li 博士是加拿大阿尔伯塔大学（University of Alberta）计算机系博士、博士后。致力于深度学习、强化学习、机器学习、人工智能等前沿技术及其应用。曾任电子科技大学副教授；在美国波士顿任资深数据科学家等。目前在筹备深度学习相关的创业项目。Yuxi Li 博士也将参与专家答疑。

机器之心曾经发表过的介绍强化学习的文章：

深度学习漫游指南：强化学习概览
深度解读AlphaGo胜利背后的力量：强化学习
ACM 最新月刊文章：强化学习的复兴
谷歌总结深度强化学习，人工智能代理表现已达人类水平
神经网络和深度学习简史（三）：强化学习与递归神经网络
深度强化学习综述：从AlphaGo背后的力量到学习资源分享

加入机器之心强化学习小组：

对于强化学习这样一个既有历史沉淀又有未来前景的技术领域，你一定充满了好奇和想要学习的渴望。也许你在机器学习和计算机方面已经有了一定的技术积累，但要进入一个新的领域，你可能还是常常感到：

找不到合适的学习资料
有学习动力，但无法坚持
学习效果无法评估
遇到问题缺乏讨论和解答的途径

因此，为了帮助“强化学习新手”进入这一领域，机器之心发起了一个互助式学习小组——「人工智能研学社· 强化学习组」。本小组将通过优质资料分享、教材研习、论文阅读、群组讨论、专家答疑、讲座与分享等形式加强参与者对强化学习和深度学习的理解和认知。

面向人群：有一定的机器学习技术基础，在强化学习方面处于学习阶段的学习者
学习形式：学习资料推荐、统一进度学习（教材或论文）、群组讨论、专家答疑、讲座等。
加入方式：

添加 机器之心小助手 微信，并注明：加入强化学习组
完成小助手发送的入群测试（题目会根据每期内容变化），并提交答案，以及其他相关资料（教育背景、从事行业和职务、人工智能学习经历等）
小助手将邀请成功通过测试的朋友进入「人工智能研学社· 强化学习组」

入群测试 QUIZ

1）教育背景 2）从事行业和职务 3）人工智能学习经历 4）强化学习学习经历

请解释：什么是 actor-critic 方法？
在异步方法中，为什么我们不需要通过经历回放 (experience replay) 来稳定学习过程？

原文 http://www.jiqizhixin.com/article/2235

正文到此结束

所属分类：编程技术

本文标签： 教育总结美国快的 id 创业谷歌深度学习科技智能数据科学 tar CTO 神经网络数据文章 https UI http 教材 src 测试
版权声明： 本文为互联网转载文章，出处已在文章中说明(部分除外)。如果侵权，请联系本站长删除，谢谢。
本文海报： 生成海报一生成海报二

热门推荐

openfire数据库安装指南

浏览(14,784) 评论(0)
Caffe 深度学习框架上手教程

浏览(11,120) 评论(0)
ReactiveCocoa入门教程：第一部分

浏览(11,934) 评论(0)
开源HIDS-OSSEC使用实例:监测CC攻击

浏览(11,835) 评论(0)
Decorators in ES7

浏览(16,454) 评论(4)
用Electron（Atom编辑器的兄弟项目）开发桌面应用

浏览(29,423) 评论(0)
Windows下JetBrains CLion中文输出乱码的解决方法

浏览(12,874) 评论(1)
同步-@synchronized, NSLock, pthread, OSSpinLock性能比较

浏览(11,799) 评论(0)
【开班了】JAVA培训班正式招生

浏览(7,925) 评论(12)
Seaweedfs之Volume读请求重定向

浏览(26,094) 评论(3)

相关文章

阿里云首购8折

Loading...

其他链接

关于本站

本站定位：个人技术类博客

本站作用：写博客、记日志、闲聊扯淡鼓捣技术。

问题交流

[HBLOG]公众号

HBLOG

HBLOG