fuzzywanglixin的个人博客分享 http://blog.sciencenet.cn/u/fuzzywanglixin

博文

AlphaGo战胜李世石与投资算法战胜庄家

已有 5862 次阅读 2016-3-13 01:57 |系统分类:论文交流

    今天看了一天的围棋 -- 李世石对AlphaGo的第三局,看的过程中一直在思考。我当研究生时围棋大概下到业余初段水平,后来为了研究人工神经网络(ANN),硬是把围棋给活生生的戒掉了(太花时间),所以今天看到围棋世界冠军的水平和ANN相比根本不在一个档次上,心里还是很高兴的。

    我在进入模糊领域之前是研究ANN的,而我对模糊领域的三个主要贡献都源自于ANN研究的启发:1)证明模糊系统的万能逼近定理是因为我看到ANN是万能逼近器,所以尝试一下模糊系统是否也具备这个特性;2)从数据产生模糊规则的Wang-Mendel方法受启发于ANN从数据中学习的特性;3)自适应模糊控制也是受启发于ANN在非线性自适应控制中的应用(Narendra的论文)。说这些只是想告诉大家一个背景:我对围棋并不陌生,而AlphaGo的核心--人工神经网络ANN是我的研究专项。

    电脑围棋软件已经存在许多年了,AlphaGo的突破到底在哪里呢?我觉得最关键的地方是AlphaGo在模仿人类的下棋方式,而依靠其远超人类的计算能力,就是比你“棋高一着”。下过棋的人都知道,高手就是比你多考虑几种情况,而每种情况比你多往前算几步,“棋高一着”,就总是赢你。怎么得到需要考虑的情况呢?AlphaGo从人类过去的对局中学习:人类在类似局面下下一步是怎么走的,排一个序,取其中前m种选择,如此重复n步,这样计算量也就是m的n次方。想象一下下面这个具体的例子:每种局面下考虑人类过去最常使用的m=10种下一步的行棋位置,在每个位置上放子作为一个新的局面重复上面的过程,这样进行n=10步,其计算量也就是10的10次方,现在的计算机完全应付得来。m,n作为可调参数,在开局阶段m大一些(考虑可以行棋的位置多一些)、n小一些(不必考虑的那么远,因为路还长机会还很多),然后逐步减小m(随着棋盘上子的增多,可供行棋的位置在减少)、增大n(考虑的更远一些、对结果看的更透彻一些),保持计算量的平衡。想象一下,如果你的对手每一步都不知疲倦的跟你这么下,你怎么赢他?!

     好了,现在该说本博文的主题:AlphaGo的成功经验能否应用到股票投资?从上面的分析可以看出,AlphaGo成功的关键是从人类过去的行棋中确定出下一步行棋位置的排序,所以AlphaGo的核心ANN实质上是人类棋手的模型,也就是说通过ANN给人类棋手建模,然后根据模型决定行棋策略。这和我的跟踪大户炒股算法(谁说炒股不赚钱:君子爱财,取之有道,没什么丢人的:http://blog.sciencenet.cn/blog-2999994-950653.html从核心理念上讲是一致的:建立对手的模型,这就相当于你完全了解了你的对手,然后找出对手的弱点击败他。AlphaGo知道人类的弱点是计算能力不强,无法每步都考虑m=10种情况而每种情况都向前算n=10步,而AlphaGo可以很容易做到这一点;我的跟踪大户炒股算法知道大买家的弱点是需要买入的量太大,只有一点一点的买,我用模糊规则给大户建模,就像ANN给棋手建模一样,基于大户模型我就可以从大户的行为中获利,和AlphaGo利用模型击败人类棋手是一个道理。

    AlphaGo的成功又一次向我们证明专注于细节、专注于做好一件产品的重要性。两天来看到的大部分评论是从理念方面分析AlphaGo的成功给我们带来的思考,而我觉得AlphaGo的算法细节才是其成功与否的关键。Google说ValueNetwork给出获胜的概率,然后根据获胜概率决定下一步行棋的位置,而如何计算这个获胜概率google并没有讲细节,所以说了跟没有说一样,这是google的狡诈之处。

    基于我对神经网络的理解,我觉得Value Network应该按下面这样做。由于对于每一种盘面都不难算出黑白双方各自大致的目数,所以Value Network应该是这样训练出来的:把过去所有棋谱的盘面作为输入,把相应盘面双方的目数作为输出,这样训练出来的Deep Neural Network就是Value Network。由于这样的Value Network给出的是双方的目数,所以一旦一条路径中出现对方的目数明显多于自己目数的盘面,那么这条路径就没有必要再继续走下去了,这样可以大大节约搜索的时间;另外,应该选择自己目数减去对方目数为最大的结局路径作为下一步行棋的位置路径。这样训练Value Network就是体力活,很容易做,而效果我想不出比这个更好的 --- 我给出的是各种情形下双方的目数,这比获胜概率有用得多,所以我觉得google在放烟雾弹,误导其它竞争对手 --- Value Network的输出是双方的目数,而不是获胜概率。

    AlphaGo的成功给我们信心,因为AlphaGo并没有用到什么新的算法与理论,而是将现有的方法综合应用,通过大量的实践和不懈的努力,最终做成一个完美的产品。类似的,如果我们精心的为各种投资者建模,反复尝试、反复实践,我有信心我们能把整个投资者的“频谱”做出来,只要某种投资者一出现我们马上就能把他辨识出来。具体地讲,用模糊系统给投资者建模,把投资者的行为模式转化成数学方程式,进而以方程式为中介,利用大量数据辨识出是怎样的投资者在幕后操作,这些如果做好了会有划时代的意义,就像黑夜里的探照灯,让躲藏在数据背后的投资者现原形,真到了那一天整个投资界将会被改写。

    先写到这里,更多细节分析以后继续。




世纪人机大战:李世石 VS AlphaGo
http://wap.sciencenet.cn/blog-2999994-962281.html

上一篇:投机与赌博,混沌与随机,金融大鳄与土豪
下一篇:终于明白“小金库”的钱是怎么来的了

10 陈德旺 刘洋 李训军 闫永义 赵凤光 杨正瓴 李天成 徐晓 黄仁勇 yangb919

该博文允许注册用户评论 请点击登录 评论 (18 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-3-9 02:44

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部