王书宗
阿法狗是怎样练成的?---谈谈阿法狗的左右互搏
2016-3-12 11:14
阅读:6005

     随着AlphaGo的挑战成功,其名声越来越大,可以说占据了世界各大新闻的头条,引起万众瞩目。今天我听NPR(美国国立公共广播电台),人家还提到特斯拉电动车公司总裁Elon Musk这两天就AI(人工智能)发表AI伦理方面的意见,原因就是阿法狗的卓越战绩。围棋在西方是小众项目,汲汲无名,但AI的突破却是历史性事件,从此可能在人类智能的坐标系中,人工智能一骑绝尘而去,对人类社会造成深远影响,甚至引发又一次技术产业革命。所以富有前瞻意识的企业家像Elon Musk出来“伦理”一番也是可以理解的。不知不觉,AlphaGo已登大雅之堂。一段时间来,大家都戏谑地称其为“阿法狗”,有音有意,也不算差。但由于中文环境中“狗”的语义有过多的延伸意义,所以我觉得要正规点称呼的话,选“阿尔法”比较好。当然昵称可以还是“阿法狗”,无伤大雅。译成“阿尔法”,应该和谷歌给它取名的初衷切合得比较好。目测谷歌AlphaGo取名有两个含义,有点语义双关的意思。一个是来自于其母公司 AlphaBet。另一个是Alpha在群居动物里面属于首领,比如头羊就是Alpha。谷歌给这个软件取名AlphaGo, 显然是寄予厚望,期望它能成为围棋领域的领头羊。
       回到本贴的主题,“阿尔法的左右互搏”,也就是学习和自我学习功能。据谷歌说,目前这一款挑战李世石的阿尔法,实力远远超过去年10月挑战樊麾的那一款,对后者的胜率已经达98%,也难怪在本次赛前俞斌从谷歌探营得到李世石取胜率几乎为零的内部消息。前后两次软件主体都一样,那么什么不一样了呢?不一样的就是从去年10月到今年3月约半年时间里,阿尔法通过左右互搏进行自学,从而达到涨棋的目的。据DeepMind公司的官网介绍,阿尔法不仅学习了人类职业高手十万局的棋谱,积累了3000万位置的数据库(3000万盘对局的传闻有误,应该是3000万位置的参数,这个能直接为阿尔法在对局中所用),充分利用了人类棋手有史以来的所有经验,而且在此基础上,通过左右互搏而自学,仅仅在过去不到半年时间里,它左右互搏了几千盘“强化学习”(DeepMind用语),这些数据进一步精调了数据库中参数。如果说去年10月份5:0胜樊麾二段是一个职业低段的水平,那么它经过了这几千局的训练后,棋力已经暴涨到了人类职业高段的顶尖水平,目前五番棋中2:0领先李世石,已经充分说明其实力。如果说在赛前,大家(包括DeepMind的总裁哈萨比斯)对这个怪物的实力还不是很肯定地话,那么现在几乎所有人都信服了其实力。当然也信服了“深度学习”和“强化学习”(左右互搏)的威力。这也是为什么哈萨比斯敢宣称他们能秒杀人类所有的智力游戏。

       对于人类来说,训练后涨棋是不容易的,因为你不见得能把每一次赢棋的经验固定下来,当然天才如柯洁者,弈城四千局的训练学习量是可以催化一个领军人物的横空出世的。但电脑则完全不同,它能把所有赢棋的棋局以参数的形式固定到数据库中。也就是说,电脑的学习是坚实的,是步步为营的,每一次赢棋都不会浪费。在阿尔法左右互搏自我学习的对局中,赢棋的所有位置在当时的棋局上下文中,会赋予胜率更高的一个参数,这样在以后的比赛中如果搜索到同一或类似的局面,能够被采用。显而易见,这样的互搏将会把每个位置的胜率精调到一个无与伦比的完美状态。而这样的阿尔法成为围棋领头羊就毫不奇怪了。

       可以想见,目前这个水平的阿尔法如果继续左右互搏学习一段时间,那么围棋界传说中的棋神将可以莅临人间了。

      最后想说一下的是,左右互搏让人想起一个有意思的问题,就是人类高手们的布局是无懈可击的吗?传统是不能改变的吗?阿尔法的出现将会提供一些有趣的答案。现在阿尔法是从人类职业棋手的10万局开始学习而且互搏。其实DeepMind哈萨比斯还有一个大胆的构思,就是让阿尔法从零开始左右互搏,建立一个全新的数据库。那样的话,可能会出现很多非常奇妙的而且胜率很高的开局。说不定能看到阳春流那种比较另类的开局,甚至以前从来没有过的开局,但是胜率是依然能得到保证的下法。虽然那是一个很漫长的进化过程,但绝对是具有颠覆性的尝试。这可真是“世界真奇妙,后来才知道”啊。


问:在起步之初,AlphaGo被教给了许多棋型模式。考虑到用户的输入信息多种多样,
这种技术将如何应用至智能手机?

哈萨比斯:是的,数据量很大,你可以利用数据去学习。但就AlphaGo的算法而言,
我们认为可以不再规定受控的学习起点,完全放手让其自学,从零起步。我们将在
未来几个月进行这样的尝试。这会花更长的时间,可能是几个月,因为不按棋谱随
机下棋意味着更多的尝试和试错。但我们认为,这种纯粹依靠自学的模式是可行的。

问:出现这样的可能性是否是由于算法已发展到目前的程度?

哈萨比斯:不是的。我们之前也可以这样做。这样做不会让程序更强大,这只是为
了尝试纯粹的自学,摆脱人为控制的部分。我们认为,这一算法可以在不受控的情
况下运转。我们去年让人工智能去玩Atari的游戏,人工智能从像素点的研究起步,
这其中没有掺杂任何人类知识。人工智能从屏幕上的随机像素开始。

转载本文请联系原作者获取授权,同时请注明本文来自王书宗科学网博客。

链接地址:https://wap.sciencenet.cn/blog-2525669-962166.html?mobile=1

收藏

分享到:

当前推荐数:0
推荐到博客首页
网友评论2 条评论
确定删除指定的回复吗?
确定删除本博文吗?