|||
吕乃基
传统认识论的认识过程相对复杂,涉及各种思维方式,如逻辑思维、形象思维和直觉思维,以及多种方法,如分析、综合、归纳、演绎、比较、分类、类比、假说、模型,还有现在的复杂性科学方法等等,不一而足。在科研中纯熟应用这些方法并非易事,其要义是,先对现象进行抽象和分析,把复杂的对象和过程分解为要素、部分和片段,再加以比较、分类和归纳,找出共同点,经由假说揭示背后的原因,然后再回过头来解释原有和更多的现象,进而提出预言。
上述认识过程可以归结为马克思所论述的“两条道路”。“在第一条道路上,完整的表象蒸发为抽象的规定;在第二条道路上,抽象的规定在思维行程中导致具体的再现”。
相对而言,大数据认识论的认识过程就简单了,就是把非结构化的大数据(复杂世界的存在方式,就是非结构化中包含着结构化,混沌中包含着有序),按不同主体的不同目的转变为特定的结构化数据,使之对于特定的认识主体显得简约有序,由传统的认知科学到认知计算。简言之,就是在大数据中直接“提取”出有用的知识。在传统认识论的各种方法中,比较方法在大数据认识论中继续赋予重任。在对大数据的认识过程中“需要竞争对手或行业的背景。多话题的调查和对比是这类产品设计的题中应有之义。世界3对所有搜索的话题一视同仁,独立于话题。数据及其挖掘的不完善(查准率和查全率)放在比较的框架中就不是严重问题。”区别在于,传统认识论中的比较方法旨在使资料有序和做出发现,大数据认识论中的比较旨在使结论客观和突显。
正是这种由大数据直接获得的“简约有序”或“特定的结构化数据”,提供了人类群体在宏观上的某种行为,政府和公司的领导据此比以往任何时候更轻松和直截了当做出更为有效的决策。“‘大数据’可能是许多行为科学理论,乃至于是科学理论的终结者。”《连线》杂志的前主编克里斯·安德森在2008年说:“数量庞大的数据会使人们不再需要理论,甚至不再需要科学的方法。”大数据用事实向人类宣告:“知其然不知其所以然”(参见不“知其所以然”之三——“后知其然”及之一和之二),既是电脑望尘人脑的劣势,也是电脑超越人脑的优势!然而,也正是这一点引发了诸多争议。
支持者以卡尔·波普尔推崇的科学研究方法力挺舍恩伯格:大胆预测,不断犯错,不断尝试。在大数据认识论中,就是“统计+分类-推理分析=决策”,认为这是一种更加进取的思维方式,进而是一种崭新的生活理念。关键在于,知其然,不必知其所以然,知道该怎么做就行;“不再强调意义的真实来源,而是强调意义如何被生产”。“真正‘懂得’大数据的公司,比如谷歌,并没有将大量时间花在构建模型上,”《信号与噪音》作者希尔写道。“这些公司每年从事数十万次实验,在真实的顾客身上测试自己的想法。”
反对者认为,舍恩伯格放弃因果关系而只考察相关性的思路,与其说是一种进步,倒不如说是一种思维紊乱。不利于下一步预测,也无法采取行动。真的可以止于“知其然”,而不求“知其所以然”吗?认知计算是否可以取代认知科学?人类的祖先经过长期观察发现蛙鸣与下雨往往同时发生。这样的长期观察大概也称得上是“大数据”。于是试图通过学蛙鸣来求雨。在多次失灵之后走向巫术、献祭和宗教。走向错误道路的根本原因就在于在“知其然不知其所以然”。在正反双方之间还可以提出这样的问题:怎样看待由星相和血型看性格?(参见这算是大数据吗?)
当然,“真正‘懂得’大数据的公司”与先民不可同日而语,在“真实顾客身上的数十万次实验”也迥异于巫术。回想上世纪中叶,鲍林等人面对复杂的DNA结构由传统的先分析后综合的方法一筹莫展时,富兰克林由x-衍射,不经传统道路而直接获得DNA整体的照片,华生与克里克由此破译了DNA的双螺旋结构。大数据与此有异曲同工之妙,开辟了人文社会科学领域居高临下在整体上把握对象的认识道路,为看待人类和社会提供了一种全新的方法,“可以跳过个体认识直接到共性认识阶段。”由“高处视角”(Top sight),以前所未有的丰富细节与深度,观察和跟踪真实世界,基于数据分析做出决策,而不是像过去更多凭借经验和直觉。然而,依然可以追问的是,双螺旋结构最终得到科学解释,大数据认识论是否也需要在知其然之后再走一步?“放弃对因果性的追求,就是放弃了人类凌驾于计算机之上的智力优势,是人类自身的放纵和堕落。如果未来某一天机器和计算完全接管了这个世界,那么这种放弃就是末日之始”。
此外,在大数据如火如荼之时,小数据依然有其价值,譬如解决前述多数人暴政;况且还存在“大数据浮夸(Big Data Hubris)和算法”的缺陷,因而应该将大数据与小数据(即传统的控制数据集)结合起来,创建对人类行为更深入、更准确的表达。以“全数据革命”(all data revolution)和用全新的技术和方法对各种问题进行更多更好的分析。
然而争论的根源并不止于此,问题在于大数据认识过程本身的特殊性:从作为认识对象的大数据只要跨出一步,就不仅是认识过程,而且是产业链,不仅是认识,而且是实践。争论者混淆了认识与产业,以及认识与实践。舍恩贝格及其支持者把大数据认识论中的产业特征和实践特征等同于传统的认识过程,这就“遮蔽”了由“知其然”通往“知其所以然”的道路;反对者则以传统认识论否定大数据认识论中为传统认识论所不具备的新的实践特征,这就堵住了传统认识论拓展前行的道路。
大数据认识论使用了计算机乃至互联网大脑等现代技术手段,简化了马克思两条道路中的第一条道路,越过了对整体的分析和对个体的归纳,一步到达了所谓“共性认识”,但在本质上依然是归纳,而归纳总是不完全的,尤其是没有给出之所以如此背后的原因。有必要揭示在某种语境中某个人群之所以具有这样或那样行为的依据。认知科学不仅是研究脑的“自然属性”,而且要研究人类认知的社会属性(包括用户搜索、用户关系挖掘、话题发现、情感分析等)。大数据为人文社会科学提供了前所未知的“知其然”,开辟了通往人的心灵深处之途,仅仅是人工智能进入人类生活的一个序幕。大数据认识论不能止步于此,更不能半途而废,社会学、心理学、传播学等学科对此赋予重任。在由知其然到知其所以然的道路上,大数据认识论与传统认识论一脉相承。
大数据认识论更是对传统认识论的超越,其一是知行合一。长期以来,知行分离,以及伴随着知行之争。在大数据认识论中,知与行开始结合起来。其二是求真求效。传统认识论的核心在于求真,在20世纪的“大科学”中,为科学而科学的求真,在相当程度上被纳入特定社会的动机之下。在大数据认识论中,功利目标进一步彰显,并且贯穿于认识(行动)的各个环节。大数据认识论的实践特征在下文关于社会的知识建构的内容中将得到进一步说明。其三,大数据认识论不止是认识,而且是产业和实践。专家认为,眼下需要切实解决网络化数据社会与现实社会缺乏有机融合、互动以及协调机制的难题,形成大数据感知、管理、分析与应用服务的新一代信息技术架构和良性增益的闭环生态系统,达到大幅度提高数据消费指数、数据安全指数,降低数据能耗指数等目标。Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-9 07:10
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社