spring63的个人博客分享 http://blog.sciencenet.cn/u/spring63

博文

机器学习漫谈:神经网络的复苏 精选

已有 3355 次阅读 2021-4-11 07:28 |个人分类:机器学习漫谈|系统分类:海外观察

      人工智能(AI第一个寒冬持续了十多年。在AI的历史上,AI寒冬是公众降低对AI兴趣、政府和企业减少对AI研究的投入时期。20世纪80年代初,随着冷战的加剧,科技界已经为AI 寒冬解冻做好了准备。

明斯基在《感知机:计算几何导论》一书中,证明了罗森布拉特感知机不能解决“异或(XOR)”问题,这促成了第一个AI寒冬,导致神经网络的资金削减(见上一篇博客“机器学习漫谈:感知机的兴衰”)。然而,现在我们知道多层感知机可以很容易地解决XOR问题。而早在1975保罗沃博(Paul Werbos利用2层反向传播网络学习,就已经有效地解决了明斯基质疑的XOR问题20世纪80年代初期,研究人员已经开发出用于修改神经网络权重和阈值的算法,特别是,反向传播算法,有助于解决明斯基质疑的“无限计算时间”的问题。

神经网络这片土地得到了复。更强大的学习规则,可以训练多层网络。这种多层网络产生的结果表明,明斯基的“直觉判断”过于仓促。

20世纪80-90年代,神经网络有几项重大发展,包括:霍普菲尔德网络、反向传播算法学习过程和卷积神经网络。

霍普菲尔德的循环神经网络】

约翰·约瑟夫·霍普菲尔德(john joseph Hopfield出生日期:1933.7.15)是美国科学家,他在1982年发明了一种联想神经网络。它现在更普遍地被称为霍普菲尔德网络。

 

1 约翰·霍普菲尔德

霍普菲尔德从事物理学的多个方面的研究,包括计算神经生物学和计算网络,光与固体的相互作用,半导体中的杂质态,生物分子合成的精确性校对,生物能学中的电子转移过程,以及生物化学反应动力学。霍普菲尔德是一位理论家,他的研究通常是在建立一个概念框架,在这个框架中实验结果是可以理解的。目前的研究重点主要是理解神经元网络如何与动作电位进行交流,从而产生大脑巨大的“计算能力”。

1982年约翰·霍普菲尔德创造并推广了现在以他名字命名的循环神经网络引起了轰动,使计算机能够利用经验进行学习。它由包含一个或多个完全连接的递归神经元的单层组成。霍普菲尔德网络也称神经网络的Ising模型或Ising–Lenz–Little模型是一种基于赫布学习规则的有监督方法见我的博客“机器学习漫谈:第一项人工智能工作”。从结构上讲,霍普菲尔德网络是一个循环网络,它的单层节点的输出在迭代过程中反馈给这些节点。

 

2 霍普菲尔德网络

【鲁梅尔哈特的反向传播算法和并行分布式处理】

大卫·E·鲁梅尔哈特(David E. Rumelhart, 1942.6.12-2011.3.13)曾在加州大学、圣地亚哥大学和斯坦福大学担任心理学教授。与麦克莱兰一起,在认知神经科学领域的工作,这一领域的认知框架,被称为并行分布式处理和连接主义的概念。

詹姆斯L麦克莱兰(James L. McClelland,出生日期:1948.12.1  )是斯坦福大学心理学教授和斯坦福大学心理、大脑和计算中心主任。他最为人所知的是他在统计学习和并行分布式处理方面的工作,他运用连接主义模型来解释认知现象,如口语词识别和视觉识别。麦克莱兰在很大程度上对20世纪80年代连接主义的科学兴趣的大幅增加,做出贡献

 

3 大卫·E·鲁梅尔哈特(左)和詹姆斯L麦克莱兰(右)

复兴时期最重要的事件之一鲁梅尔哈特在1986年提出新的学习过程——在神经元网络中反向传播算法参考资料[3])。该过程重复地调整网络中的连接的权重,以便最小化网络的实际输出向量和期望输出向量之间的差的度量。此后,连接主义快速发展,从模型到算法,从理论分析到工程实现,为神经网络的未来发展打下重要的基础。

这个时期的人工神经网络(ANN),有时也称连接模型和并行分布式处理(PDP)模型。出现不同名称原因之一,是在人工智能的寒冬里,一些研究项目不使用人工智能或神经网络名义,以避免筹集资金的麻烦。

1986年和1987年,鲁梅尔哈特麦克莱兰PDP研究小组分别出版两卷著作《并行分布式处理(PDP)》(参考资料[1][2])。

是什么使人类比计算机更聪明?他们的答案在于人类思维的大规模并行体系结构。PDP一书中,他们描述了一种称为“连接主义”的新认知理论。作者假设大脑由神经网络中连接的大量基本单元组成。心理过程是这些单元之间的相互作用,它们以并行而非串行的方式相互激发和抑制。在这种情况下,知识不再被认为是存储在局部结构中。相反,它由分布在整个网络中的成对单元之间的连接组成。该书的1卷奠定了并行分布式处理理论的基础,而第2卷将其应用于认知科学和神经科学中的许多特定问题,介绍了感知,记忆,语言和思想方面的模型。有些章节描述了感知、记忆、语言和思维等方面的模型。讨论并行分布式处理模型和神经生理学之间的关系,或者描述专门针对神经生理学数据的模型。这本书的结尾是一个结语,指出了该方法的优点和缺点以及未来的发展方向。

在《并行分布式处理(PDP)一书出版25周年之际,麦克莱兰著文回顾了最初的动机,评估PDP对认知科学领域的影响,并展望未来(参考资料[4]文中强调并行分布式处理或PDP理论框架与符号认知方法有根本的不同,也许最显著的区别是PDP认为认知是涌现的。根据涌现原理(principle of emergence),复杂系统的规则或规律行为是组成元素之间相互作用的结果,每个行为都根据相对简单的原理,与整个系统的行为几乎很少或没有明显关系。文章介绍了并行分布式处理网络的例子,如图4所示。这是利用前馈模型学习将字母字符串的拼写,映射到它们的声音上。包括单元(输入母字符串的拼写),隐藏单元输出单元,该模型从一组训练示例中学习,按照目标函数相对于每个连接权重的梯度,调整每个连接权重。

 

4 前馈模型(参考资料[4]

【扬·勒村LeNet-5卷积神经网络架构】

·勒村(Yann LeCun,出生于1960.7.8.)是一位法国计算机科学家,纽约大学库兰特数学科学研究所教授,并且是Facebook副总裁兼首席AI科学家,主要从事机器学习,计算机视觉,移动机器人和计算神经科学领域的研究。

 

5 ·勒村

1998年,扬·勒村、伊恩·波托、约书亚·本吉奥和帕特里克·霍夫纳在题为“基于梯度的学习应用于文档识别”(参考资料[5])的研究论文,中介绍了LeNet-5架构——它是最早,最基本的CNN架构之一,专为手写和机器打印字符识别而设计。

   卷积神经网络(CNN

CNN是一类深度神经网络,像几乎所有其他神经网络一样,它们使用反向传播算法的版本进行训练。它们的不同之处在于体系结构。CNN可以识别出具有极大可变性的图案(例如手写字符),识别图像中的特定特征并对其进行分类,广泛用于分析视觉图像。其应用范围包括图像和视频识别,图像分类,医学图像分析,计算机视觉和自然语言处理。

CNN中的“卷积”一词表示卷积的数学函数,它是一种特殊的线性运算,简而言之,表示为矩阵的图像与滤波核矩阵相乘,以提供用于从图像中提取特征的输出(图6)。

 

6 卷积示意图

例如,一张尺寸为204x175的猫的图像,可以将其表示为值在01之间的矩阵,其中1是白色,0是黑色。应用卷积(图7),我们发现滤波器执行了一种垂直线检测。猫头部的垂直条纹在输出中突出显示。 由于内核(9x9)的大小,输出图像在两个维度上均缩小了8个像素。

 

7 图像的卷积运算示例(参考资料[6])

CNN架构有两个主要部分:(1)一种卷积工具,可在称为“特征提取”的过程中分离并识别图像的各种特征以进行分析;(2)完全连接的层,利用卷积过程的输出,进行分类——根据卷积段提取的特征,预测图像的类别。

 

8 卷积神经网络架构(参考资料[6])

组成CNN的层分为三种类型,即卷积层(从输入图像中提取各种特征),池化层(减小卷积特征图的大小以减少计算成本)和完全连接(进行数学函数运算,分类)层。当这些层堆叠时,将形成CNN体系结构。除了这三层,还有两个重要的成分,分别是辍学层(从神经网络中丢弃了一些神经元,避免过度拟合)和激活函数(增加了非线性,有几种常用的激活函数ReLU,Softmax,tanH和Sigmoid函数)。

   LeNet-5 CNN架构

·勒村于1998年发布的早期卷积神经网络LeNet-5,能够识别手写字符,其架构如图9

 

9 LeNet架构(参考资料[6])

C1——第一卷积层。由6个大小为5x5的卷积核“遍历”输入图像,输出628x28大小的图像。卷积神经网络的第一层通常识别基本特征,如直边和角点。

S2——子采样层,也称为平均池化层(请注意,尽管“最大池化”的工作效果更好,但在20世纪90年代尚未发现这一点),把C1输出中每四个像素的平方平均为一个像素。S2628x28图像缩小2倍,生成6个大小为14x14的输出图像。

C3——第二卷积层。它由16个卷积核组成,每个核的大小为5x5,它再次“遍历”614x14的图像,生成1610x10大小的图像。

S4——第二个平均池化层。S41610x10图像缩小为165x5图像。

C5——具有120个输出的完全连接的卷积层。120个输出节点中的每一个都连接到来自S4的所有400个节点(5x5x16)。此时输出不再是图像,而是长度为1201D数组。

F6——将120阵列映射到长度为10的新阵列的完全连接层。数组的每个元素现在对应于一个手写数字0-9

输出层——一个softmax函数(请注意,尽管ReLU的工作效果更好,但在20世纪90年代尚未发现这一点),它将F6的输出转换成10个值的概率分布,这些值的和等于1

神经网络道路曲折】

20世纪50-60年代,感知机的兴衰有过曲折历程。在20世纪80-90年代,神经网络的复苏也并非一帆风顺,实际上,经历了两起两落。

20世纪80年代初走出第一个AI寒冬后,在接下来的十年里,人工智能行业的商业投资从1980年的几百万美元激增到1988年的数十亿美元。专家系统,作为模拟人类专家解决狭窄的特定问题(如诊断传染病或识别化合物)的决策能力的专门系统,变得非常流行。但这些专家系统最终被证明维护起来过于昂贵,因为它们很难更新,不能学习,而且很脆弱,在处理异常的输入时不够健壮。因为专家系统与公众和科学家的期望不符,导致了1987年人工智能专用硬件市场的崩溃,随着出现第二个AI寒冬。与此同时,虽然反向传播算法的应用,大大促进了连接主义的兴起,但神经网络还有一些不令人满意的地方,人们无法理解神经网络所采用的分析策略。这也使得20世纪80年代末,神经网络研究又跌入低谷。

20世纪90年代,新一代技术科学家,例如,LeNet-5 卷积神经网络架构使神经网络和计算机学习重新回到了AI研究的前沿。但是,在世纪之交,神经网络又一次衰落,一度被支持向量机(SVP)所取代。SVP是机器学习的另一种方法,它建立在一些非常干净优雅的数学基础上。在20世纪末到21世纪世纪的头几年,神经网络陷入了“日全食”,直至到21世纪第二个十年又复兴

麻省理工学院大脑和认知科学教授托马索·波吉奥(Tomaso Poggio)说:“有一种观点认为,科学中的想法有点像病毒的流行病”。“流感病毒的基本毒株有五六种,而且每一种都会有25年左右的周期。人们被感染后,会产生免疫反应,因此在接下来的25年内不会被感染。然后是一个新的一代,准备被同一种病毒感染。在科学领域,人们会爱上一个想法,对它感到兴奋,但,他们会厌倦它,把它抛弃,然后接种疫苗。所以思想应该有同样的周期性!”(参考资料[7])。

结语】

就像重新发现古希腊罗马文明使中世纪的欧洲摆脱停滞进入文艺复兴时期一样,在 AI寒冬后,神经网络技术在20世纪80年代得到了复苏,但随后又经历的曲折的历程,几经起伏

今天人工智能深度学习的繁荣,得益于科学家的坚持不懈的努力和计算机技术进步。应该说,20世纪80-90年代的多层反向传播算法和深度卷积神经网络架构为21世纪10年代的深度学习繁荣打下了基础。

参考资料:

[1] David E. Rumelhart, James L. McClelland and PDP Research Group. Parallel Distributed Processing, Volume 1 : Explorations in the Microstructure of Cognition: Foundations .A Bradford Book. 1986

[2] James L. McClelland, David E. Rumelhart and PDP Research Group. Parallel Distributed Processing, Volume 2: Explorations in the Microstructure of Cognition: Psychological and Biological Models. A Bradford Book. 1987

[3] David E. Rumelhart, Geoffrey E. Hinton & Ronald J. Williams . Learning representations by back-propagating errors. Nature, volume 323, pages533536(1986)

[4] Timothy T. Rogers,a James L. McClellandb. Parallel Distributed Processing at 25: Further Explorations in the Microstructure of Cognition. Cognitive Science 38 (2014) 10241077

[5] Y. LeCun, L. Bottou,Y. Bengio, and P. Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, november 1998

[6] Thomas Wood. Convolutional Neural Network.

https://deepai.org/machine-learning-glossary-and-terms/convolutional-neural-network

[7] Larry Hardesty. Explained: Neural networks

https://www.csail.mit.edu/news/explained-neural-networks

 



https://wap.sciencenet.cn/blog-3005681-1281372.html

上一篇:机器学习漫谈:感知机的兴衰
下一篇:机器学习漫谈:深度学习的辉煌

7 贾玉玺 王兴 张鹰 赵志宏 黄永义 彭真明 康建

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-5-15 17:26

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部