博文

从神经网络到深度学习

已有 218 次阅读 2024-7-4 12:21 |个人分类:科研备忘|系统分类:科研笔记

我曾写过一篇题为“从布尔到辛顿的”的博文。辛顿是当今深度学习的开拓者。所以再写点儿关于深度学习的内容。

人工智能的起源公认是1956年的达特茅斯会议。实际上在1955年，美国西部计算机联合大会（Western Joint Computer Conference）在洛杉矶召开，会中还召开了个小会：“学习机讨论会”（Session on Learning Machine）。讨论会的参加者中有两个人参加了第二年的达特茅斯会议，他们是塞弗里奇（Oliver Selfridge,1926—2008）和纽厄尔（Allen Newell，1927—1992），塞弗里奇发表了一篇模式识别的文章，而纽厄尔则探讨了计算机下棋，他们分别代表两派观点。讨论会的主持人是神经网络的鼻祖之一皮茨（Pitts），他最后总结时说：

“（一派人）企图模拟神经系统，而纽厄尔则企图模拟心智（mind）……但殊途同归。”

自从西班牙解剖学家卡哈尔（Santiago Ramón y Caja，1852—1934）于19世纪末创立了神经元学说以来，关于神经元的生物学特征和相关的电学性质在之后被相继发现。皮茨所谓的模拟神经系统就是当年麦克洛克（Warren McCulloch，向皮茨介绍他在按照莱布尼茨的逻辑演算为大脑做建模。

没想到这两位有一位共同偶像莱布尼茨。这位17世纪的哲学家，曾尝试创制一套人类思想的“字母表”，其中每个字母代表一个概念并且能够被组合并处理成一套能够对所有知识进行计算的逻辑规则。根据这一愿景，不完美的外部世界能够被转换成一个“理性的避难所”——一个图书馆。

麦卡洛克向皮茨解释他正在试图用莱布尼茨的逻辑演算来建立一个大脑模型。他的灵感来自于《数学原理》，而皮茨曾在12岁时就把《数学原理》读了一遍，并给罗素写了信。罗素非常惊讶，一个12岁的孩子竟然读完他的书，而且还能发现书中的错误。于是就邀请他去剑桥大学读书。但皮茨家里很穷，根本无法赴剑桥。

《数学原理》论述了所有的数学都可以自下而上的用无可争论的基本逻辑来建立。最基本的结构是命题（即最简单的陈述/判断），是或非。从命题入手，罗素和怀特海德采用了与、或、非三种基本逻辑运算来将命题连接成越来越复杂的网络。就是利用这些简单的命题，他们完整的推导出了整个复杂的现代数学。

1943年，M-P 模型论文《神经活动中所蕴含思想的逻辑活动》（A logical calculus of the ideas immanent in nervous activity）中被首次提出，这便是莱布尼茨逻辑演算在神经网络发挥肇始。创建该模型的是来自美国的心理学家麦克洛克以及另一位数学家皮茨。

麦卡锡（John Macthey，1927—2011）和明斯基(Hyman P. Minsky, 1919—1996）的建议书里罗列了他们计划研究的七个领域：一、自动计算机；二、编程语言；三、神经网络；四、计算规模的理论；五、自我改进（机器学习）；六、抽象；七、随机性和创见性。

经过几十年的发展，神经网络已经成为前卫的人工智能方向。在学术界，以辛顿、杨立坤（Yang LeCun）、本吉奥（Yoshua Bengio）和吴恩达（Andrew Ng）等为代表的神经网络大师们不断将深度学习的研究推向新的高峰，对包括计算机视觉、自然语言处理和机器学习在内的诸多领域带来了深远的影响。譬如说：(1)认知神经网络；(2)主动神经网络；(3)感知-理解-决策神经网络；（4)复杂神经网络实现；(5)深度神经网络；(6)深度神经网络等领域。

深度学习兴起的背景是计算能力的提高与大数据时代的来临，其核心理念是通过增加网络的层数来让机器自动地从数据中进行学习。深层神经网络能够获得巨大成功与其对应在训练算法上所取得的突破性进展是密不可分的。

传统的反向传播算法 (Back Propagation)随着传递层数的增加，残差会越来越小，出现所谓的“梯度扩散”(Gradient Diffusion) 现象，故而不适于深层网络的训练。深度学习模型中的受限玻尔兹曼机(Restricted Boltzmann Machines) 和自编码器(Auto-Encoder)采用了“自下而上的无监督学习”和“自顶向下的监督学习”策略来实现对网络的“预训练”和“微调”,可使学习算法收敛到较为理想的解上，而当前使用更为广泛的卷积神经网络(Convolutional Neural Networks)则采用局部感受野、权值共享和时空亚采样的思想，显著地减少了网络中自由参数的个数，并且使得采用反向传播来进行网络的并行学习成为可能。

深度学习最具吸引力的地方还在于能凭借无标签的数据来进行学习，而不需要依赖于监督信息的支撑。现实世界的很多问题中，对数据的标记通常是耗时耗力甚至是不可行的，无监督学习可以自动抽取出抽象的高层属性和特征，是解决样本标记难问题的一个重大突破.深度学习的成功引起了包括产业界和学术界在内的诸多人士的关注其影响力甚至上升到了国家战略层面。

参考资料

McCulloch, W.S., Pitts, W. A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biophysics 5, 115–133 (1943).

https://www.jiqizhixin.com/articles/2015-08-27-10

https://nautil.us/the-man-who-tried-to-redeem-the-world-with-logic-235253/

https://user.guancha.cn/main/content?id=199049

焦李成等：神经网络七十年：回顾与展望《计算机学报》，2016年8月

转载本文请联系原作者获取授权，同时请注明本文来自刘钢科学网博客。
链接地址：https://wap.sciencenet.cn/blog-105489-1440918.html

上一篇：易学的数理派为何没中国本土诞生？