黄吉平
大数据背景下的量化投资:现状与趋势
2015-5-9 10:41
阅读:15652
标签:大数据, 实验金融物理, 量化投资, 众包预测, 实验室真人统计物理

2015-7-7补注:此文的修改版已经正式发表于《金融纵横》,标题为:“大数据时代量化投资:功能、挑战与解决路径”。具体内容请点击:

http://www.physics.fudan.edu.cn/tps/people/jphuang/Mypapers/JRZH-1-Chinese.pdf



大数据背景下的量化投资:现状与趋势

黄吉平(复旦大学) 

摘要:本文首先介绍了大数据时代中量化投资的优势与特点,继而给出其中的挑战或问题。为此,文中给出“迎接挑战解决问题”的两个途径:第一个是基于真实市场的众包预测;第二个是基于实验室市场的物理学研究方法应用。针对这两个途径,本文将给出具体的例证,并同时简要展示具体的量化投资策略是如何产生的。本文有助读者了解大数据背景下量化投资的现状与趋势。

 

1.      大数据时代中的量化投资:优势与特点

1.1   从“小数据”到“大数据”

 

随着计算机和互联网的普及,人类已经从小数据时代正式迈入大数据时代:大数据出现在我们生活中的各个方面,它涉及很多学科或领域,例如金融经济、医疗卫生、基因组学、物理天文、政治、教育、工业、等等。

 

现在人们都知道大数据有用,那么,为什么有用呢?这就需要首先知道什么是“小数据”、什么是“大数据”。下面我通过举例来简要说明。

 

首先,何为“小数据”? 在上世纪90年代初——互联网普及之前,我从新华书店购买一套《十万个为什么》(第四版)。营业员在他的帐薄上能够记录的数据是:书名、购买数量、价格等。这些数据诚然有用,但是,用途有限,所以,我们这里不妨把它们称为“小数据”。然而,时至今日,我从当当网上购买一套《十万个为什么》(第六版),当当网的销售系统能够记录的数据,不仅有书名、购买数量和价格,还可以有很多,例如,因为我是通过我的帐号在线购买这本书的,那么,我的身份信息(如:性别、年龄、学历等)都变成了当当网销售系统记录的数据——而且这些记录都是由计算机瞬时完成的。可见,与先前的小数据相比,这些数据是多维的,这就使得它们也就变得更为有用。例如,因为我购买的《十万个为什么》(第六版)属于科普读物,当当网的系统就会自动推荐一些旁的科普读物给我,并同时结合我的博士学历,可能会同时推荐一些较为专业的书籍给我。这是因为,这个推荐系统本身就是基于系统掌握的所有数据,这些数据正属于大数据。可以想象,它们的用途远远超过“小数据”。当然,我这里举的例子仅仅是以网络销售作为一个特例介绍的,事实上,大数据的价值覆盖的范围远过于此——其常常超出人们的想象。例如,针对手机信号的集体异常(如集体震荡等),科学家可以立即推知某个地方正在发生着地震;当新电影刚刚入市,科学家可以针对微博上影迷的转发规律来推知该电影未来的票房收入;等等。这些应用很奇妙,与人们的生活密切相关,显然,它们是基于先前的小数据无法实现的。那么,大数据时代的到来对金融投资领域是不是也有额外的影响呢?

 

1.2   大数据 + 投资à量化投资

 

通常所说的“投资”是指定性投资,它属于主观判断型,例如看到俄罗斯出兵乌克兰的新闻时,我们的投资经理可能就会想,接下来,国际金价可能上升,于是,购买黄金,以待升值,等等。这种基于现象的预判而进行的投资,就是典型的主观判断型投资。主观判断型投资或定性投资的一个最大问题就是,投资过程中,人的情绪会显著影响投资进程——这是因为,人这个动物,有喜怒哀乐、有五情六欲,趋利避害是其本性。这个本性直接导致整个投资过程对于风险并不能做到客观的准确度量,而只能跟着感觉走。

 

可喜的是,基于大数据分析的量化投资,它具有一个显著功效,就是把人的情绪排除到投资进程之外——整个投资进程完全按照人预先设定的程序进行操作。把人的情绪排除在外的一个作用就是确保投资进程的客观性,确保这样的客观性是重要的,因为量化投资策略的构建本身是基于客观的规律,这些规律是基于大数据分析总结出来的,它们具有客观的精确性(例如:风险的准确度量、等等)。这是通常的定性投资所不拥有的,这也是量化投资之所以极具吸引力的一个本质原因。

 

1.3   量化投资的科学依据:“历史会重复”

 

构建量化投资策略时,通常通过分析历史数据,获得经验规律,然后,把此规律用于预测市场的未来走势,以便从中获利。这里的一个科学依据是:历史往往会重复。其实,不仅股票市场过去的历史会在未来重复,同期来看,一个国家的股票市场的某些规律,也可能在另一个国家的股票市场中重复出现。

 

2.      大数据时代中的量化投资:挑战或问题

 

基于大数据的量化投资,是一个新兴的领域,很多方面还不完善,自然也就存在各种各样的问题,为节省篇幅起见,下面仅从三个大的方面通过举例、进行概述,更多细节,建议有兴趣的读者阅读《打开量化投资的黑箱》(作者:里什纳兰)中的第10章和第11章。

 

2.1   对象方面:“数据陷阱”

 

数据多了后,可能会让量化投资者切实感受到不识庐山真面目,只缘身在此山中式的迷茫。我这里说的数据陷阱,其实只是想说尽信数据不如无数据

 

试举一例:有人分析了淘宝的网络营销数据,发现新疆和内蒙销售出去的比基尼远远超过广东等沿海省份,于是得出结论比基尼广告的重点应该放在新疆和内蒙,而非广东等沿海省份。这个结论其实是个误导,理由是:在诸如新疆和内蒙等内陆省份,比基尼并非常用物品,当地超市自然不太乐意销售,这时老百姓如果想购买的话,也只能到网上购买了,另一方面,在广东等沿海省份,超市里有大量的比基尼,相对而言,到网上去购买比基尼的人自然会少得很多。从这个角度看,拘泥于数据本身做分析,其结论有时看起来并不靠谱、或不经推敲

 

2.2   方法方面:“先天缺陷”

 

众所周知,当我们透过蓝色眼镜看一张白纸,我们眼中看到的将是“蓝纸”而非白纸。与此类似,在当前关于大数据的研究中,大数据就似铺在我们眼前的“白纸”,而我们使用的很多统计分析方法就似我们佩戴的“蓝色眼镜”。也就是说,基于这些统计方法分析大数据得到的结果通常依赖于统计方法本身,这就导致这些结果可能与事实不符。例如:统计学界常用的P值检验方法,于2014年被偶然发现它其实“不靠谱”,以致经济学家史蒂芬说,“P值没有起到人们期望的作用,因为它压根就不可能起到这个作用”。

 

2.3   结果方面:“针尖对麦芒”

 

仍旧通过举例来说明。基于大量数据的实证分析,以诺贝尔经济学奖得主Fama为首的主流经济金融学家们认为“风险越大、收益越大”。但是,美国麻省理工学院金融学家Bowman则得到一个截然相反的结论“风险越大、收益越小”——这个发现后来也获得很多例证,以致今天的学界为Bowman的这个发现专门取了一个名字,叫“Bowman悖论”。

 

3.      “迎接挑战解决问题”之第一个途径:“基于真实市场的众包预测”(以股市为例)

 

针对上述“挑战或问题”,本文建议两个不同的途径,以便为未来提供参考。其中,第一个途径的主要方法是培养一批训练有素的人员,然后用于预测真实市场。具体可分为以下三个步骤——下面内容将以我的研究团队的做法为例,进行介绍。

 

3.1   开端:人员培训

 

首先,设计实验室虚拟股票市场(图1),招募N位学生在该实验室虚拟市场中炒股。目的是让这些学生熟悉股票市场中的相关事宜。为检验这些学生的熟练程度,我们会分析该虚拟股票市场产生的价格序列(2a-b),考察交易量的时间序列(2c-d)以及收益率的时间序列(2e-f),以与真实市场的相关数据进行比对。如果与真实市场一致(2a-d),说明这些学生已经初步受训合格。

 

1:实验室虚拟股票市场的操作界面。【K. N. An, X. H. Li, G. Yang, and J. P. Huang, “A controllablelaboratory stock market for modeling real stock markets”, The European Physical Journal B 86, 436 (2013) 

 

2:实验结果。(a,c,e)第一轮;(b,d,f)第二轮。(a,b)价格的时间序列;(c,d)交易量的时间序列;(e,f)收益率的时间序列。【K. N. An, X. H. Li, G. Yang, and J. P. Huang, “A controllablelaboratory stock market for modeling real stock markets”, The European Physical Journal B 86, 436 (2013) 

 

3.2   检验:预测过去

 

接下来,我们设计了一个新的基于真实市场的预测实验(3),把受训合格的(部分)学生N’位集中到实验室,让他们基于历史数据预测过去的未来。我们的一次预测结果显示,所有学生的预测准确率在53%左右。这个数据暗含的意思是,有近一半的学生预测准确率大于53%,其余小于53%。前者人数大约是 N’/2,这正是我们试图筛选出来的对象。

 

3基于真实市场价格序列的预测。其中,黄颜色区域是已知数据点,公布给被试。然后让被试根据这些已有的数据点预测余下的数据点。J. P. Huang, Experimental Econophysics: Properties and Mechanisms ofLaboratory Markets (Springer, 2015)

 

3.3   应用:预测未来

 

然后,我们让前面筛选出来的 N’/2位被试参与预测未来的实验(图4)。我们安排他们预测沪深300每天的开盘价和收盘价,这样的预测——特别是收盘价——对股指期货的量化投资是有益的。作为测试,我们让这个预测系统运行了10个工作日,共预测了20个数据点,统计结果显示,涨跌趋势预测准确率为85%。由于这些被试不是集中在实验室预测的,他们可以在各自的终端预测,所以,我把这样的预测叫做“众包预测”。我们已有的初步结果显示,这样的预测,如果前期准备工作比较恰当,还是可以获得令人满意的预测结果的,自然也就可以用于构建量化投资策略。

 

4:预测系统的一个界面。

 

4.      “迎接挑战解决问题”之第二个途径:“基于实验室市场的物理学研究方法用”

 

4.1   “他山之石,可以攻玉”

 

众所周知,传统物理学成就显赫,其显著改善了人类生活,例如电、计算机等的出现。这也说明物理学的思想和方法有其科学性。那么,是不是可以把这个思想和方法移植过来,用于大数据的研究,以便构建可靠的量化投资策略呢?答案是肯定的。

 

那么,什么是物理学的思想和方法呢?

 

(1) 什么是物理学的思想?

 

这里以中学物理课本中介绍的自由落体为例,假设一个小球从屋顶自由下落:影响小球下落高度(h)的可能因素非常多,例如:时间(t)、空气阻力、大气压力、湿度,甚至暗物质、暗能量、等等。然而,伽利略(1564-1642)只考虑了时间与高度的关系,而忽略了其余所有因素的影响,结果他发现ht满足h =(1/2)gt2这个简单的关系式,这里的g是一个常数。基于这个表达式,他创立了自由落体定律,这个定律随后帮助牛顿(1642-1726)创立了经典力学,经典力学使得今天的人们能够把火箭和卫星送上天,从而造福全人类。鉴此,可以说,物理学的第一个思想就是:寻找原因时应该选择最主要的原因——这其实就是一些物理学家常说的“粗粒化”。

 

基于伽利略的自由落体定律h =(1/2)gt2,牛顿建立了他的第二定律,即F=ma,这里F就是力,m是质量,而a就是加速度。这时如果把牛顿的F视为重力、把牛顿的a视为伽利略的g,我们发现牛顿的这个第二定律不仅可以帮助解释伽利略在地球上做出的自由落体定律,而且可以帮助解释开普勒(1571-1630)针对太阳系中运动的行星研究得到的行星运动三定律。更为重要的是,牛顿第二定律不仅可以用于解释这些已知的规律,而且可以用于预言未知的现象,例如,海王星的发现就得益于牛顿第二定律(和万有引力定律)的理论预言。牛顿第二定律的成功蕴含了物理学的第二个思想,即获得的结果应该具有普适性。这里的普适性有两层涵义,一是可以用于解释过去或已知(解释力)、二是可以用于预测未来或未知(预测力),两者缺一不可。

 

(2) 什么是物理学的方法?

 

上述物理学的两个思想是从战略层面上讲的,要实现这两个战略目标,那么战术上该怎么走呢?这就涉及具体的物理学方法了。众所周知,任何一个学科的诞生,都是人们从身边事物或熟悉的事情观察分析开始的,物理学也不例外,例如,从亚里士多德(公元前384-322)时代到开普勒时代,物理学家首先观察身边熟悉的自然界,然后分析、归纳这些观察数据,之后,获得了许多结果,例如亚里士多德得出地球是球形的结论、开普勒总结了行星运动三定律。这些结果都是分析自然界中已有的数据或现象(例如海平面不平、行星绕着太阳旋转)获得的结果,即都是实证分析的结果。所以,“实证分析”该是物理学第一个方法,它自物理学这个学科诞生之初就有了。

 

物理学第一个方法的优点:结果可靠、数据巨大。这里的“结果可靠”是指因为被分析的数据来自自然界、非人为构造,故而其结果应该是针对自然界中特定对象或系统的客观描述。至于“数据巨大”则是指,庞大的自然界中蕴藏各种海量数据,无疑这对人们认识、理解自然界大有裨益。

 

物理学第一个方法的缺点:不可控性、非格式化。因为这些数据来自自然界,所以,人们无法(或很难)控制产生这些数据的条件,这就是这里说的“不可控性”。也正因为数据的不可控性,所以,实证分析通常只能得到相关关系而非因果关系——要知道,与相关关系相比,因果关系代表了更深层次的认识,对人类通常也更为有用。另一方面,自然界的这些数据格式是由人们的采集方式决定的,也就是说,不同的人可能会用不同的格式,这就为人们研究这些数据带来了一些额外的麻烦——这也就是前面提及的“非格式化”的意思。

 

那么如何克服这两个缺点呢?这就有了物理学的第二个方法。

 

物理学的第二个方法就是实证分析与可控实验相结合的方法。因为实证分析揭示的(通常)是相关关系,而非因果关系,所以,伽利略开始在实验室中做实验,以便可以有目的地调节一个或少数参数(同时固定其余所有参数),以便揭示这些参数与结果之间的因果关系。这样的实验就是可控实验,这些实验通常是在实证分析结果的启发下开展的。

 

物理学第二个方法的优点:可控性(因果关系)、格式化。这里的优点正对应物理学第一个方法的缺点。因为人们可以通过调节参数、并考察其对实验结果的影响,所以,这些可控实验揭示的自然是这些参数与结果之间的因果关系。至于“格式化”,则是指在开展可控实验的过程中,因为可调的参数简单、明确,所以,实验数据的收集格式自然也就简单、明确,并且,对于不同的人做同样的可控实验,数据的格式也基本相同或相近。

 

物理学第二个方法的缺点:偏离事实、数据稀疏。要知道,这些可控实验是特定的人(例如伽利略)在特定的实验室针对特定的实验样品或系统做出来的,所以,最终获得的实验数据可能会偏离真实世界中的规律,或者说,不能被其他人重复。这就是我所说的“偏离事实”。另一方面,一般而言,实验室中产生的数据与自然界中蕴藏的海量数据相比,通常少得可怜,这也正是我说的缺点之一——“数据稀疏”。

 

那么,这两个缺点又该如何解决呢?这就有了物理学的第三个方法。

 

物理学的第三个方法就是实证分析、可控实验、理论分析三者相互结合、互为补充的方法。鉴于物理学第一个方法隐含的缺点,牛顿当年就直接从第二个方法出发,例如,当他解释了开普勒的行星运动定律(实证分析结果)后,他也同时解释了伽利略的自由落体定律(可控实验结果)。更为重要的是,牛顿还意识到第二个方法产生结果的狭隘性,例如:开普勒的实证分析结果“行星运动三定律”是针对太阳系的行星归纳总结得到的,所以,这个行星运动三定律只适用于太阳系中当时已经观察到的几个行星,并不适合其他的行星和恒星;同样,可控实验的结果与特定的实验样品和器材甚或开展实验的人有关,这些结果的可靠性自然令人生疑。鉴此,牛顿基于微积分、使用理论分析的方法推广了物理学第二个方法获得的结果,使其突破狭隘性、具有普适性。例如他的第二定律不仅可以解释已知的行星运动定律或自由落体定律,而且可以预言其他物体的运动行为——这些物体可以小到分子、原子甚至更小。

 

今天,人类的生活已经在物理学的影响下产生了翻天覆地的变化(例如电的使用、在家里看的卫星电视、以及很多人每天离不开的智能手机),由此,无论愿意与否,人们不得不承认:物理学第三个方法的成功是巨大的、是空前的。

 

那么,如何运用物理学的思想和方法来构建量化投资策略呢?

 

4.2   从一个“失败”的例子说起:风险与收益的关系

 

风险与收益关系的研究课题与每位投资者的切身利益密切相关。一般而言,风险越大收益越大、或风险越小收益越小,也就是说,风险与收益呈现正相关关系。这是研究人员基于市场中大量金融数据统计分析的结果,它是文献中的主流观点。然而,基于上述物理学第三个方法可以知道,这个结果仅仅是实证分析的结果,还缺可控实验和理论分析的研究。鉴此,有研究人员构建了实验室金融市场,开展了一系列可控实验,可是他们揭示了一个相反的(统计)结果:当金融市场是封闭且有效时,风险与收益呈现负相关关系。进一步的理论分析也支持了这个实验发现;见图5中由左至右斜向下的那条直线。有趣的是,这个结果与Bowman悖论一致,而Bowman悖论正是指风险与收益呈现负相关关系,但是,这个悖论同样仅仅是实证分析的结果,它是相关文献中的非主流观点,自1980年提出以来,就一直争议至今。换言之,文献中基于实证分析得到的主流观点(“风险与收益呈现正相关关系”)并没有经受得住物理学第三个方法的检验,故而名之“失败”。

 

5:不同风险对应的相对财富分布。两处虚拟资源分别为M1M2。图中由左至右斜向下的直线是针对所有数据的线性拟合;斜向上的直线是固定选择M1的结果。【K.Y. Song, K. N. An, G. Yang, and J. P. Huang, “Risk-return relationship in acomplex adaptive system”, PLoS One 7, e33588 (2012)

 

至此,一个量化投资策略也就有了,它是关于长线操作的,它叫人们应该如何把鸡蛋放在同一个篮子里。图5中斜向上的那条直线告诉我们,选择回报率大的股票进行持续投资、长期持有,是投资一良策。注意:这里的回报率大是指统计意义上的大回报率,为此,在真正投资之前的认真调研,也就显得必不可少了。有人说,这个投资策略其实就是价值投资,没错,是的,但是,这样的投资策略的效果通过实验和计算机模拟清晰地定量显示出来,图5应该还是第一次。

 

4.3 从一个“成功”的例子说起:市场中存在“看不见的手”

 

正确认识市场的宏观性质和微观机制有助利用金融市场造福人类。200多年前,斯密(1723-1790)分析了各种市场的数据后,得到结论:市场中有只“看不见的手”起着调节作用,这只“手”使得市场在没有外界干预下也能够自动达到供求平衡。显然,对照物理学第三个方法,斯密的结论仅仅是实证分析的结果,还缺少可控实验和理论分析。鉴此,有研究人员设计了实验室金融市场,开展了一系列可控实验,同时也进行了相关的理论分析(基于多体计算机模拟),可喜的是,实验和理论皆支持了斯密的结论(图6)。可见,斯密基于实证分析获得的结论通过了物理学第三个方法的检验,故名之“成功”。

 

6两处虚拟资源分别为M1M2,让被试选择进入这两处(人数分别为N1N2)、并平分其中的资源。结果发现:N1N2几轮平均的结果等于M1/M2,也就是说,好像存在一只“看不见的手”用于调节这个虚拟市场,以使得所有人统计意义上获得同样数量的资源。图中五角星表示实验结果;其余数据是计算机模拟结果。【W. Wang, Y. Chen, and J. P. Huang, “Heterogeneous preferences,decision-making capacity and phase transitions in a complex adaptivesystem”, PNAS 106, 8423 (2009)

 

至此,一个新的量化投资策略也就可以构建出来了,它是关于短线操作的,它叫人们应该如何把鸡蛋放在不同的篮子里。图6中的对角线告诉我们,当外在环境没有显著变化时,市场中存在一个均衡点,这个均衡点是看不见的手调节的必然结果。鉴此,如果人们从沪深300中随机选择30只股票,把它们按照日收益率的大小从高到低排序,结果会发现,在看不见的手的调节下,每只股票的平均排序在1020之间。那么,这里也就有了一个用于短线操作的投资策略,它就是,对于排在最前几位和最末几位的股票存在明显的套利机会。

 

5.      总结:喜忧参半,直面挑战

 

本文简要总结了大数据背景下量化投资的优势与特点,并列举了已经浮现的一些挑战或问题。继而针对这些挑战或问题,结合作者自己团队的研究,建议了两个可能的解决途径。需要说明的是,关于这两个途径的研究仍旧在进展之中,当前并不完善,特别是第一个途径,相关细节还需要进一步仔细推敲,文中介绍仅仅是它的雏形。但是,通过介绍这两个途径,希望能够起到抛砖引玉之效、并能够吸引更多志同道合者加入这个领域,或从事基础研究、或从事实务操作,皆可。


致谢:201548日,应江苏省扬州市金融学会的邀请,我在中国人民银行扬州市中心支行做了一次讲座,本文内容就是根据那次讲座内容整理出来的,特此感谢相关领导的支持,并感谢该行办公室副主任朱苏世先生的周到安排;文中图3-4以及与图3-4有关的研究内容是由本团队的硕士生刘璐同学完成的,特此一并致谢。

 

作者简介:黄吉平,复旦大学教授、博士生导师。2003年获得香港中文大学博士学位,2005年起,加盟复旦大学。已经指导19位研究生获得学位,其中博士学位9名、硕士学位10名。获得国家基金委优秀青年基金资助,入选教育部新世纪优秀人才支持计划,获得教育部2014年高校科学研究优秀成果奖自然科学奖二等奖(第一完成人)。


[注:此文应邀为《金融纵横》撰写。完成于2015年5月9日。]

转载本文请联系原作者获取授权,同时请注明本文来自黄吉平科学网博客。

链接地址:https://wap.sciencenet.cn/blog-683185-888710.html?mobile=1

收藏

分享到:

当前推荐数:3
推荐人:
推荐到博客首页
网友评论2 条评论
确定删除指定的回复吗?
确定删除本博文吗?