|
当下的产业界,可能最火的就是大数据(big data)、云计算(cloud computing)和人工智能(AI)这三驾马车了,与之相关联的产业更是像井喷一样地大规模爆发,许多人不管懂不懂,或者是似懂非懂,也投入到这个热浪中,生怕被时代淘汰,本身来说,这是一件好事。但是令学术界担忧的是,至今AI包括机器学习(ML)和深度学习(DL)好像都缺乏理论解释,或者说是数学上的解释,包括一些数学大家也给出了悲观的结论,因为一旦缺乏数学理论的支撑,任何技术都不够完美,应用中也总是会伴随着风险。然而冷静下来仔细想一想,情况可能不尽似然。下面是我谈一点对这个问题的一些粗浅看法。
我们所有人(包括我)一直认为数学是万能的,也就是说,数学是无所不能的,经过深入思索后,但是现在我对这个说法产生了怀疑,理由如下:
1)本质上,数学处理的是结构化数据,这也是数学的优势,数学是寻找自然规律的一门科学,它是基于逻辑和抽象的符号运算去寻找事物的一般规律,或者叫普遍规律的一门严谨的科学,形式推理是实现这一过程的主要方式,对于非结构化数据,其实是无法直接应用数学方法处理的,一般的处理方式是先把非结构化数据划分成块,每个小块近似为一种结构化数据形式,这样采用分块形式去逼近非结构化数据,然后再用数学方法研究处理(包含推理),比如很多图像、视频可以先转换成文字形式,文字形式再通过编码形式转换成结构化格式,便于数学统一处理,处理后再转换回去,话句话说,数学并不能直接处理非结构化数据,而是需要对非结构化数据分块切割处理后再进行结构化,才能发挥其作用,这是数学的一个缺憾。有人可能会说,统计学不是处理非结构化数据吗?不是的,统计学本质是仍然是寻找随机数在一阶(均值)、二阶(方差)或者高阶形式上的普遍规律。对于big data,如果模型可以近似成无穷维线性模型,那么数学仍然能够发挥其作用。但是问题来了,如果模型本身是无穷维非线性的模型,且数据是非结构化形式,也就是数据之间并没有严密的精确的数量关系,而是一种模糊的关联关系。这个时候数学就显得无能为力了,换句话说,基于模型驱动的世界是数学的天下。
2)机器学习(或者深度学习),处理的模型参数上不封顶,而且处理的数据可以是结构化的,也可以是半结构化的,或者是非结构化的,实际上,ML(DL)更擅长处理非结构化数据,这类数据和结论之间没有严格的因果关系,而是一种弱关联的非逻辑关系,所以我们称之为数据驱动的方法,因为传统的模型驱动的方法无法搭建精确的模型,所以使用数据驱动的方法跟更加接近于自然本质属性,这也是ML和DL发挥威力的地方。换句话说,对于数学很难解释的DL来说,两者的运行机制并不一样,是一种相互补充的关系,所以试图通过数学来解释DL,我认为,从机制机理上来看,是行不通的。而DL的出现,恰恰弥补了数学在这方面的不足。其实人类大脑是兼具逻辑抽象性和模糊关联性特征的。所以强AI的实现是可能的,随着Intel新一代神经网络CPU的推出,这一可能性变得愈加现实了,新一代CPU解决了高级动物大脑结构问题,也就是说,Intel的新一代CPU的推出已经跟高级动物大脑结构趋同了,剩下的交由算法(含模型驱动型和数据驱动型)来加持性能的提升,那么有朝一日,当CPU中所含的神经元个数超过人类时,加上优秀的算法,从智力上来看,机器接近人类甚至超过人类是一定会实现的。人类大脑的一个缺点是对big data不够敏感也无能为力,而AI最擅长这个,所以如果机器的优点克服了人类大脑的缺点,为什么机器的智慧不能超过人类呢?
3)从颗粒度来看,数学的不同学科本身有着严格的颗粒度,颗粒度不是越小越好,而是够用最好,ML和DL的颗粒度则取决于应用,这是两者的共性。
4)从二者融合出发,这是肯定的,对于AI领域,一定会做到:对于确定性模型,用数学工具建模比较好,软硬件开销少,而对于非结构化数据,用ML(DL)实现更加自然,真正做到了“我中有你”、“你中有我”的复合优化策略。这一点跟人类大脑高度类似,但具有远远超越了人类大脑的能力。
我认为这是两者的界限和区别。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-3 00:23
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社