如果把近年来人工智能主流技术“深度学习”理解为那位116岁的长寿老奶奶(拓展阅读:“深度学习,你就是那位116岁的长寿老奶奶”),那么当前人工智能的诸多现象就不难理解了。概言之,他引发的革命、对行业的翻盘和对学术圈的震荡、还有隐患和不足都是那么的个性鲜明、棱角分明 。
先说第一个,革命。端到端(End-to-end)是深度学习面世后最流行的一个概念。 以前我们做研究,都喜欢讲要深入到数据内部去,了解行业和应用领域的特点,然后才能形成好的交叉学科成果。以计算机视觉领域为例,在计算机视觉相关的任务如行人跟踪、人脸识别、表情分析、图像检索等,共识的观点是要找到最富代表性的特征,或统计性的或结构性的或变换空间的。这些特征对后期的预测任务至关重要,而用于预测的模型则另外再选择或设计。所以,选择特征和选择预测模型之前是两套基本独立的班子。
深度学习出来后,在很大程度把这个做法摒弃了,两套班子被整合了。特征选择到预测都在一个模子里完成,输入的是原始数据,输出的是结果。而曾经对领域知识的依赖被隐式或显式地融入到了模型中。除此以外,依赖于强大的、可并行计算的GPU的算力,深度模型的预测能力也大为提升。
图1 童话(同化)世界前的计算机视觉领域预测模型框架:药材对应各种特征;医生对应于特征选择器;药罐对应于模型预测器;火表示可以通过集成技术(Boosting)进一步提高预测性能
于是,原本大相径庭的行业都走到了一起,可以在统一的模型框架讨论人工智能在各自领域中的发展了。这就是端到端带来的同化现象,因为它将曾经对行业领域知识的依赖性或准入门槛显著地降低了,它也导致越来越多的行业因此而更加重视人工智能的技术研发和应用。更有甚者,干脆把依赖手工、简单重复操作的岗位直接用自动化和人工智能程度高的机器替换了。如富士康公司就出现了“熄灯工厂”。因为这些工作不再需要人了,那灯自然也不是必需要开的了。可以预见,未来这种情况还会在更多的行业漫延。那么,那些从事简单、重复操作工作的人们,有没有做好更新知识寻找新工作的准备呢?政府又有没有协助做好相应的准备呢?
事实上,不仅行业间的同化现象比较明显,这一拨人工智能热潮在学术圈也有类似的同化现象。近几年在人工智能研究上,最明显的特点就是顶级人工智能会议论文数量的井喷,咱大国的论文也已是占了大半壁江山。据说今年人工智能顶会之一的神经信息处理会议(Neural Information Processing Systems,简称NIPS),光投稿量就达到了5000篇以上,评审的压力可想而知。仔细分析,原因有两个,一个是端到端的构造方式,使得大量的预测模型模块化了。那么,针对不同的任务,在模块化的框架下,基本技巧是差不多的。要么是增加算力,比如多买点显卡;要么是增加不同结构的模块来丰富特征的多样性;要么是改进优化技术,来寻找更多更强的长寿老奶奶;要么是增加数据量,或虚拟的或花钱买的,以提高逼近待搜索最优解空间的能力。而这一切本应高大尚的技术,又由于全球最大“同性交友网站”Github的代码共享方式,变得进一步简单了。用一个形象的比方就是,原本小学得用算术花老半天时间解决的数学习题,上中学后发现用代数方法就能很轻松解决了。结果,以前你从事人工智能研究,可能需要打个好几年扎实的数学、统计、编程基础,现在因为这两个原因而变得简单、易于上手,也方便在不同研究领域进行推广了。于是,人工智能的现状就变为:老百姓以为的人工智能是正在创造一个又一个复仇联盟者3的英雄,而实际当下很多相关的研究可能更像是穿着不同衣服、梳着不同发型的韩国美女。
图2:大众眼中的人工智能研究
图3:童话(同化)世界的人工智能研究
于是, 曾经十几年前国人鲜能发表论文的人工智能顶会,现在都能见到本科生一次发很多篇的情况了。除了导师指导能力和学生创新能力确实有明显增强的原因外, 在一定程度上也是缘于是近年人工智能快速发展导致的知识层面上的拉平效应。那么,在这种形势下的顶会,是否还有必要再视为顶会? 不妨比较下物理学的顶级期刊Physical Review Letters (简称PRL), 发展至今,有没有可能一年一人发很多篇?
除了两个同化,深度学习对预测性能的追求也存在隐忧,那就是稳定性和可解释性。直观来讲,稳定性的意思是,做多次重复性实验,应该保证平均的性能尽可能是一致的,模型性能的波动要尽可能小。从预测能力来讲,深度学习模型预测性能好的理论保证在于广义逼近定理,只要耐心,总可以找到一个或一组性能优异的结果。然而,如果深度学习找到的是一群具有鲜明个性的“长寿老奶奶”,那如何能形成很好的稳定性呢?何况并不见每次都能找到这些老奶奶。这一情况通过跟踪相关文献能看出些端倪。在同化世界之前,多数文献报道实验的时候会有反应一致性的均值和反应波动的标准偏差结果,以此说明模型或方法的稳定性。而近年来相关的不少文献在这一块的报道比例明显少了不少。是因为数据规模太大,算力再强也没法保证计算效率吗?我想这里面多少还是有统计稳定性的原因。
最后但却是最重要的,可解释性。举例来说,如果一个黑箱形式的深度学习模型通过充分的训练,在预测肺癌的能力上被证明了已经超过专业医生的水平,但却无法解释其如何形成判断的,那么应该没有哪个医院敢真正使用这个模型来替代医生。从统计上来看,可解释性是力求寻找相同概念事物的共性或规律,常通过归纳总结获得。既然如此,那对模型的稳定性就得有高的期望。然而,如果预测模型追求的是个例,那就可能难以形成稳定的、有效的可解释性。
在物理世界的量子力学中,有个海森堡不确定性原理,他表明微观粒子的位置和运动不可同时被精确测量。如果从这个角度来审视当下的人工智能,似乎可以推测,预测性能和可解释性之间也存在这种不确定性。你如果希望得到优异的预测性能,你可能就得牺牲可解释性。因为前者是可以通过个例体现,而后者却需要从统计平均出发。反之亦然。如果你希望在两者之间进行平衡,那也许就需要允许机器犯点错误。
其实,人和机器的区别之一,不就是人会经常犯些错误吗?自然界也是如此。所以,他才会在物种的发展和延续中呈现了一种演化现象,并非一味地在向前进化。所谓之,退步原本是向前。也许,童话(同化)世界后的人工智能, 应该多研究下会犯错误的机器或模型。
张军平
2018年5月29日
注:所有用图均来自网络
本文被18家中央媒体之一的《科技日报》人工智能版块、中国自动化学会、中国自动化学会混合智能专委会、中国人工智能学会人工智能前沿讲习班、上海电信等的微信公众号报道过。
张军平,复旦大学计算机科学技术学院,教授、博士生导师,中国自动化学会混合智能专委会副主任。主要研究方向包括人工智能、机器学习、图像处理、生物认证及智能交通。至今发表论文近100篇,其中IEEE Transactions系列18篇,包括IEEE TPAMI, TNNLS, ToC, TITS, TAC等。学术谷歌引用2600余次,ESI高被引一篇,H指数26。
转载本文请联系原作者获取授权,同时请注明本文来自张军平科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3389532-1117394.html?mobile=1
收藏