摘要
现实世界里的许多程序都可以被看成是一种不完美信息博弈的大型游戏。在应对这些充满挑战的领域时,以前的工作都集中于如何在人工抽象域中计算纳什均衡(Nash equilibria)。本论文介绍了第一个可普及的方法,从而在无需任何前提知识的情况下就可以近似纳什均衡。我们的方法结合了虚拟自我博弈与深度强化学习。当应用到扑克游戏的时候,神经网络虚拟自我博弈(NFSP)达到了纳什均衡,但是通常的强化学习方法却偏离了纳什均衡。在一个真实世界的扑克游戏——德州扑克中,NFSP学会了一种竞争性的战略,表现出接近人类专家和最顶尖方法的水平。
引言
本论文中,我们将介绍一种在不完美信息博弈中学会如何接近纳什均衡的深度强化学习方法NFSP。NFSP智能体通过与自己对局进行学习,无需明确的前提知识。从技术上看,NFSP是虚拟自我对局(FSP)利用神经网络的函数逼近来实现的延伸和实例化(海因里希等人,2015年)。一个NFSP智能体由2个神经网络和2种存储器组成。智能体之间的对局记忆经验用于增强学习,以训练出能预测行动预期值的网络。智能体自己的行为经验被存储在一个单独的存储器中,用于监督学习,以训练预测智能体平均行为的网络。NFSP智能体从它的中值、常规策略,与最大限度地提高预测期望值的贪婪策略等混合行为中进行取样,从而慎重地行动。NFSP接近虚拟游戏,是一种流行的学习博弈模型,包括可以收敛到纳什均衡的博弈,例如两名玩家的零和博弈,以及多名玩家的潜在博弈。
我们利用两名玩家的零和计算机扑克游戏实验来评估我们的方法。在这个领域,目前博弈论的方法是利用牌力探索的方法,将游戏抽象到一个容易处理的规模 (Zinkevich等,2007; Gilpin等, 2007; Johanson等,2013)。
有限德州扑克(LHE)则是利用现有的计算资源便可得以解决(Bowling等人,2015),但大多数其他扑克游戏和真实世界的游戏仍然远远不在可抽象的范围内。我们的方法不依赖于进行这种抽象或任何其它原有知识。NFSP智能体使深度强化学习直接从它们在游戏中的互动体验中学习。当应用到扑克游戏时,NFSP接近纳什均衡,然而通常的强化学习方法偏离了纳什均衡。我们还将NFSP应用于LHE,直接从原始输入中学习。NFSP学习了竞争策略,接近了基于人工抽象的最顶尖方法的性能。
背景
在这一节中,我们提供了强化学习,扩展形式博弈,虚拟自我对局的简要概述。更详细的论述,我们推荐读者们阅读以下论文:
Sutton,Richard S and Barto, Andrew G. Reinforcementlearning: An introduction, volume 1. Cambridge Univ Press, 1998.
Myerson,Roger B. Game Theory: Analysis ofConflict. Harvard University Press, 1991.
Fudenberg,Drew. The theory of learning in games,vol- ume 2. MIT press, 1998.
Heinrich,JohannesandSilver,David.SmoothUCTsearch in computer poker. In Proceedings ofthe 24th Interna- tionalJointConferenceonArtificalIntelligence,2015.
神经网络虚拟自我博弈
NFSP是FSP的进化版本,它引入了多个扩展,比如神经网络函数逼近、蓄积采样、预期动力学以及完全基于智能体的方法。一个NFSP智能体能与游戏中的其他玩家互动,记住游戏变化的经验以及自己的行为。NFSP把这些记忆视为适用于深度强化学习和监督分类的双数据集。
实验过程
4.1.XFP的坚固性
为了理解函数逼近如何与FSP相互作用,我们从一些简单的实验开始,模拟在全宽度算法XFP中的逼近与抽样误差。
4.2.NFSP的收敛
我们通过实证,研究了Leduc Hold’em中NFSP收敛到纳什均衡的情况。我们还研究了删除或改变某些NFSP要素是否会打破收敛。首先,我们探讨当用于XFP的完全平均被接近梯度下降的增量平均过程所取代的时候会发生什么。其次,我们探讨当用于XFP精确查找被带有ε误差的逼近所取代的时候会发生什么。
4.3.与DQN算法的比较
对于深度增强学习,此前已经提出了几个稳定的算法,最著名的是DQN算法(Mnih等人,2015)。然而,这些算法实证上的稳定性只是先前单个智能体以及完美的(或接近完美的)信息MDP中得到确立。在这里,我们在多智能体,不完美信息博弈中研究DQN的稳定性,与NFSP形成比较。
4.4.有限德州扑克
我们将 NFSP应用到是一个受到大众欢迎的游戏LHE中。
相关工作
对人类专家知识的依赖成本太高,且容易受到人类的偏差所影响,此外,如果人类的知识并非最优解,那么依赖于这样的知识反而会让自己受限。但是,许多应用在游戏上的方法都依赖于人类专家知识。深蓝(Deep Blue)使用了人类制作的用于国际象棋的评估函数。围棋程序中,Maddison等(2015)以及Clark和Storkey(2015)用专业的人类对局来训练深度神经网络。扑克程序中,目前的博弈论方法通过卡牌强度的启发式方法(来将游戏抽象化到一个可控的规模。
近期,Waugh等(2015)将其中一种方法与函数逼近结合了起来;然而他们全尺寸的算法在每次迭代中都需要内隐地推理所有信息状态,这样的成本在大型领域中是昂贵到难以接受的。相反,NFSP专注于基于样本的强化学习环境,不需要对游戏的状态进行穷举,而学习器中可能甚至都没有关于游戏动态的模型。
许多在游戏中获得成功的程序都是基于本地搜索的。本地搜索算法能通过在系统运行时高效地规划游戏中的决策——比如通过蒙特卡洛模拟或是有限深度的逆向归纳做到这一点。不过,常见的基于模拟的本地搜索算法在应用于不完全信息的扑克游戏中时,结果会有分歧。不仅如此,即使是博弈论方法也并不能在不完美信息博弈的本地搜索中普遍地实现新的行为。
本地搜索的另一个问题是,如果没有先行经验来引导搜索,那么运行时的消耗可能高到无法接受。这带来了一个问题:如何获取这种先行知识?Silver等(2016)用人类专家的数据训练了卷积神经网络,随后使用自我对局的强化学习方法来进一步优化这些网络。通过利用这些神经网络来引导高性能的本地搜索,他们以5比0的战绩击败了一位围棋大师。
在这份论文中,我们在没有任何本地搜索处于运行状态的情况下评估了我们的智能体。如果研究出了适用于不完美信息博弈的本地搜索方法,使用NFSP训练出的策略可能会成为引导搜索的一种非常有潜力的方法。
纳什均衡是自我对局中理性智能体有希望消除分歧的唯一策略。
TD-Gammon是一款水平达到全球一流高手的西洋双陆战棋程序,它的主要组成部分是一个基于自我对局的强化学习训练出的神经网络。虽然它的算法——基于时间差分学习(temporal-difference learning)——在双人零和完全信息博弈中效果非常好,但是在不完美信息博弈中存在无法消除分歧的问题。
DQN则将时间差分学习与经验回放(experiencereplay)和深度神经网络函数逼近相结合,从原始图像输入中学习后,在大部分Atari游戏中达到了人类级别的表现。然而,这些Atari游戏原本就是单个玩家与受Atari模拟器控制的固定对手的游戏。我们的实验表明,DQN程序在Leduc Hold’em,即一款玩家们可以进行动态适应的游戏中,无法达到纳什均衡的水平。
Yakovenko等(2016)通过自我对局训练深度神经网络,为2款流行于人类中的扑克制作了对应的扑克程序。他们的网络在与基于启发式的简单计算机程序对抗时表现出色,但是专业的人类玩家能够战胜他们的程序,即使在样本量上来说是达不到统计显著性的。尚不知道他们的方法能否在实际或理论上消除分歧。与他们相反,我们在实践中证明了NFSP在Leduc Hold’em中能够无分歧地逼近纳什均衡。不仅如此,这种方法的原理和根基立足于扩展形式的游戏的虚拟对局(fictitiousplay)理论上。
结论
我们在通过自我对局进行的不完美信息博弈中引入了NFSP——第一个端到端深度强化学习方法——来学习逼近纳什均衡。
NFSP解决了3个问题:
第一,NFSP智能体可以在无先行知识的情况下学习。
第二,它们不依赖于本地搜索。
第三,它们在自我对局中能无差别地逼近纳什均衡。
我们的实践结果提供了以下启示:
虚拟对局的表现在出现各种逼近错误(approximation errors)时下降得非常缓慢。
NFSP在小型扑克游戏中能可靠地、无差别地逼近纳什均衡,而DQN的贪婪策略和平均策略不能做到这一点。
NFSP在没有使用明显的先验知识的情况下,从一无所知开始,最后学会了一种在现实世界的不完美信息博弈中非常有竞争力的策略。
在这份研究中,我们聚焦于双人零和不完美信息博弈游戏。虚拟对局在合作的、潜在的博弈中也能保证无差别地逼近纳什均衡,因此可以相信,NFSP也能成功地应用在这些博弈上。不仅如此,近期在连续动作强化学习(continuous-action reinforcement learning)方面的进展也可能使得NFSP能够被应用在连续动作博弈游戏中——这是一个目前的博弈论方法无法直接处理的领域。
欢迎加入本站公开兴趣群
商业智能与数据分析群
兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识
QQ群:81035754