孟津
阿狗归零成精 精选
2017-10-20 10:01
阅读:24706
标签:围棋, 阿尔法狗

           年初我写了篇博文《观聂卫-阿狗重出江湖》,是观聂卫平和阿狗大师(AlphaGo Master)弈的感想。那一回,阿狗大60比零胜了世界围棋界众多顶尖高手,然后宣布退役。好家伙,赢了就归隐江湖,让人恨得牙痒痒。当然,很多人有话说,阿狗大师能赢,全在于是下快棋,如果慢棋,人也许有机会。后来,柯杰和阿狗大师下了三盘慢棋,结果大家都知道,恩怨是非可以了断了。

           本来以为有了这个测试后,阿狗也许可以去找点什么正经事做,只知道玩,不是好狗,能咬耗子也不错,总是有点用。结果阿狗团队现在又冒了一泡,出人预料。这回出来的是很谦虚的阿零(AlphaGo Zero), 没有阿狗大师那么嚣张,但却是更令人可怕了。首先,它已经不屑跟人下棋了,可以说绝对没有任何人是对手。它只和机器下。从当年以4:1胜了李世石的版本,到60:0胜了众多棋手的大师版,阿零和它们对弈的结果是100:0。有关的文字发到了《自然》上,网上可以找到,我就不贴了。但两篇文章体现的概念却非常不同,这个从两篇文章的题目就可以看出。            

           过去的版本,是基于人类的棋谱,通过机器学习,最终在对弈中可以选择最佳的应手,从而取得胜利。但阿零却不是这样,它完全没有从几千年的人类对弈棋谱中学什么,而是在现行规则下,从零开始,自己对弈,并在其中学习提高,最后达到超人类的境界。从他们的文章中可以看出,阿零使用的算法,是所谓的强化学习(reinforcement learning),我不知道有没有更专业的译法。从零开始学习,不受人类围棋经验的影响和约束,到进入超人类弈棋的境界,花了30-40天时间,这个可以从DeepBlue网站上看到(见下面附图)。对于不懂数学和人工智能的我来说,有个问题不知这里的高手能否回答:从阿零的学习曲线看,40天以后,如果它接着练下去,是否可以达到一个极限?也就是说,就现有的规则和19X19棋盘,它永远也达不到Elo 6000。或者说围棋的变化还是有限的?不管怎么说,这个阿零的出现,说明人类对事情的认识,还是有局限性的。抛开人类的局限性,阿零的算法能够达到更佳的结果。但从最后列出的棋谱看,也可以说人类的一些基本行棋“定式”,还是围绕在最佳选择上的。这个从阿零开局就可以看出来,基本上收敛于从角部落子,和人类高手过招的思路非常相似。就围棋来说,很多可能性人类都还没有尝试过。当然,人类有自己的一些追求,比如说棋型的美感,这个阿零能否理解。但那种美感,对于胜负来说,意义在什么地方呢?

           看了一些对局,还是很感叹。很想知道,阿零跟九段棋手下让子棋是个什么状况,能让到几子。贴一份阿零对阿大师的对局谱,以及阿零自己左右手搏击的棋谱。这些棋谱,在Nature文章的辅助材料中可以看到,我挑了两个最简单的放上供参看。不太清楚阿零自我博弈的胜负率,是否会是50%对50%。


上面四张阿零学习过程图,来自DeepMind网站,特此鸣谢。


阿零(执黑)对阿大师


阿零自己打自己

棋谱来自Nature, 特此鸣谢。

转载本文请联系原作者获取授权,同时请注明本文来自孟津科学网博客。

链接地址:https://wap.sciencenet.cn/blog-4699-1081679.html?mobile=1

收藏

分享到:

当前推荐数:25
推荐到博客首页
网友评论22 条评论
确定删除指定的回复吗?
确定删除本博文吗?