【立委按】
【NLP主流的傲慢与偏见】系列刚写了三篇。中国NLP(Natural Language Processing)前辈董振东老师来函推荐两篇来自主流的反思文章。董老师说,主流中有识之士对深陷成见之中的NLP一边倒的状况,有相当忧虑和反思。
Church (2011) 对NLP的回顾和反思的文章【钟摆摆得太远】 (A Pendulum Swung Too Far)是一篇杰作,值得反复研读。文章在语言研究中经验主义和理性主义此消彼长循环往复的大背景下,考察NLP最近20年的历程以及今后20年的趋势。它的主旨是,我们这一代NLP学者赶上了经验主义的黄金时代(1990迄今),把唾手可得的果子统统用统计摘下来了,留给下一代NLP学人的,都是高高在上的果实。20多年统计一边倒的趋势使得我们的NLP教育失之偏颇,应该怎样矫正才能为下一代NLP学人做好创新的准备,结合理性主义,把NLP推向深入?忧思溢于言表。原文很长,现摘要译介如下。
【Church - 钟摆摆得太远(5)】
立委编译自:
无视历史注定要重蹈覆辙
在大多数情况下,机器学习、信息检索和语音识别方面的实证复兴派简单地无视PCM 的论辩,虽然在神经网络领域,感知机附加的隐藏层可以看作是对明斯基和帕佩特批评的让步。尽管如此,明斯基和帕佩特对他们所著的《感知机》出版20 年以来领域进展之缓慢深表失望。
“在准备这一版时,我们本来准备‘把这些理论更新’。但是,当我们发现自本书1969 年第一次出版以来,没有什么有意义的进展,我们认为保留原文更有意义……只需加一个后记即可……这个领域进展如此缓慢的原因之一是,不熟悉领域历史的研究人员继续犯别人以前已经犯过的错误。有些读者听说该领域没有什么进步,可能会感到震惊。难道感知机类的神经网络(新名称叫联接主义)没有成为热烈讨论的主题吗?……当然不是,该领域存在很多令人感兴趣的问题和讨论。可能确实也有些现在的发现也会随着时间逐渐显出重要性。但可以肯定的是,领域的基础概念并没有明显改变。今天令人兴奋的问题似乎与前几轮大同小异……我们的立场依然是当年我们写这本书时的立场:我们相信这个领域的工作是极为重要和丰富的,但我们预计其发展需要一定程度的批判性分析,可那些更富浪漫精神的倡导者却一直不愿意去做这种分析,也许因为连通主义的精神似乎变得与严谨分析南辕北辙。
多层网络并不比感知机更有能力识别连通性。”
计算语言学课程的缺陷
正如上面明斯基和帕佩特指出的,我们不断犯同样错误的部分原因与我们的教学有关。辩论的一方在当代计算语言学教科书中已被遗忘,不再提及,只能靠下一代人重新认识和复原。当代的计算语言学教科书很少介绍PCM 三位前辈。在汝拉夫斯基(Jurafsky) 和马丁(Martin) 编著的教科书以及曼宁(Manning) 等编著的两套教科书中根本没有提及皮尔斯。三本教科书中只有一本简要提起明斯基对感知机的批评。刚刚进入此领域的学生也许意识不到所谓“相关学习算法”包含了很多当今非常流行的方法,如线性回归和logistic回归。
“一些其他的梯度下降算法(gradient descent algorithms) 有类似的收敛定理,但是在大多数情况下,收敛只能达到局部最优。……感知机收敛能达到全局最优是因为它们从线性分离机这样一类比较简单的模型中选择分类器。很多重要的问题是线性不可分的,其中最著名的是异或问题。……决策树算法可以学习解决这类问题,而感知机则不能。研究人员在对感知机最初的热情[29]消褪以后,开始意识到这些局限性。其结果是,对感知机及相关学习算法的兴趣很快消褪,此后几十年一直一蹶不振。明斯基和帕佩特的论文《感知机》通常被看作是这类学习算法开始消褪的起点。”
曼宁等人的2008 版教科书中有简短的文献指向明斯基和帕佩特1988 年的论文,称其对感知机有不错的描述,但并未提及他们的尖锐批评:
“对文中提到但本章未进行细述的算法,感兴趣的读者可以参阅以下文献:神经网络方面的毕夏普(Bishop) 、线性和logistic回归方面的黑斯蒂(Hastie) 等人以及感知机算法方面的明斯基和帕佩特等的论文。”
基于这样的描述,学生可能会得出错误印象,以为明斯基和帕佩特是感知机算法(以及当今流行的线性和logistic 回归相关方法)的支持者。
毕夏普明确指出,明斯基和帕佩特绝不是感知机和神经网络的赞许者,而且把它们认作“不正确的构想”予以排斥。毕夏普把神经网络在实际应用中的普及看作是对明斯基和帕佩特上述批评意见的反击证明,认为并非如他们所说的那样“没有多少改变”、“多层网络并不比感知机更有能力识别连通性”。
当代教科书应该教给学生认识神经网络这类有用的近似方法的优点和缺点。辩论双方都大有可言。排除任何一方的论证都是对我们的下一代不负责任,尤其是当其中一方的批评是如此的尖锐,用到“不正确的构想”和“没有多少改变”这样的说法。
乔姆斯基比皮尔斯和明斯基在当代教科书中被提及得多一些。曼宁和舒兹(Schütze) 的教科书引用乔姆斯基的论文10次,汝拉夫斯基和马丁的教科书的索引中共有27 处引用乔姆斯基的论文。第一本书中较少引用是因为它专注于一个相对狭窄的话题——统计型自然语言处理。而第二本教科书涉及面广泛得多,包括音韵学和语音。因此,第二本书还引用了乔姆斯基在音韵学方面的工作。
两本教科书都提到乔姆斯基对有限状态方法的批评,以及这些批评在当时对经验主义方法论的抨击效果。但是话题迅速转移到描述这些方法的复兴,而对这一复兴的论辩、动因及其对目前实践和未来的影响的讨论则相对较少。
“由乔姆斯基1956 年的论文开始的一系列极具影响力的论文中,包括乔姆斯基1957 年的论文以及米勒(Miller) 和乔姆斯基1963 年的论文,乔姆斯基认为,‘有限状态的马尔可夫过程’虽然是可能有用的工程探索,却不可能成为人类语法知识的完整认知模型。当时的这些论辩促使许多语言学家和计算语言学家完全脱离了统计模型。
N 元模型的回归开始于耶利内克(Jelinek)、默瑟(Mercer)、巴尔(Bahl) 等人的工作……”
两本教科书对N 元文法的讨论都是从引用其优缺点开始:
“但是必须认识到,无论怎样解读,‘一个句子的概率’都是一个完全无用的概念……。”
“任何时候,只要一个语言学家离开本研究组,识别率就会上升。”(弗雷德·耶利内克(Fred Jelinek),当时他在IBM 语音组,1988)
曼宁和舒兹是以这样的引用开始讨论的:
“统计的考量对于理解语言的操作与发展至关重要。”
“一个人对合法语句的产生和识别能力不是基于统计近似之类的概念。”
这种正反面观点的引用确实向学生介绍了争议的存在,但却不能真正帮助学生领会这些争议意味着什么。我们应提醒学生,乔姆斯基反对的是如今极其流行的一些有限状态方法,包括N 元文法和隐式马尔可夫模型,因为他相信这些方法无法捕捉远距离的依存关系(例如一致关系的限制条件和wh- 位移现象)。
乔姆斯基的立场直到今天仍然是有争议的,本文审阅者之一的反对意见也佐证了这种争议。我不希望站在这场辩论中的某一方。我只是要求应该教给下一代双方的辩论。对于任一方,都不至于由于我们疏于教授而使他们需要重新“发现”。
计算语言学学生应该接受普通语言学和语音学的培训
为了让进入这行的学生对低枝果实采摘完后的情形做好准备,今天的教育最好向广度发展。学生应该全面学习语言学的主要分支,如句法、词法、音韵学、语音学、历史语言学以及语言共性。我们目前毕业的计算语言学的学生在一个特定的较窄的子领域具有丰富的知识(如机器学习和统计型机器翻译),但可能没听说过格林伯格共性(Greenberg’s universals)、提升(raising)、等同(equi)、 量词辖域(quantifier scope)、 空缺(gapping)、孤岛条件(island constraints) 等语言学现象。我们应该确保从事共指关系(co-reference) 研究的学生都知道成分统制(c-command) 和指称相异(disjoint reference)。当学生在计算语言学会议上宣讲论文的时候,他们应该已经了解形式语言学(formal linguistics) 对此问题的标准处理。
从事语音识别工作的学生需要了解词汇重音(如文献)。音韵学重音对于下游的语音和声学过程具有各种各样的影响。
图3 “politics”and“political”的谱图显示有三个/l/同位音。在重音前后出现不同的音位变体。
语音识别目前没有充分利用词汇重音特征是一个不小的遗憾,因为重音是语音信号中较为突出的特性之一。图3 显示了最小对立体 (minimal pair)“ politics”和“political”的波形和谱图。这两个词千差万别,目前的技术着重于语音单位层面的区别:
“politics”以 –s 结尾,而“political”以-al 结尾。
与“politics” 不同,“political”的第一个元音是弱化的非重读音节的元音(schwa)。
重音的区别更为突出。在诸多与重音有关的区别中,图3 突出显示了重音前与重音后/l/ 的音位变体之间的区别。另外还有对/t/ 音的影响。“politics”中 /t/是送气音,但在“political”中却是闪音。
目前,在语音单位层面,仍有大量低枝果实可以采摘,但这些工作终有完结之时。我们应该教给语音识别领域的学生有关音韵学和声学语音学的词汇重音知识,以便他们在目前的技术水平超越语音单位层面的瓶颈时依然游刃有余。由于重音存在超过三元音素的远距离依存关系,重音方面的进展需要对目前流行的近似方法的长处与缺陷均有深入的理解。语音识别方面的基础性进展,例如能有效使用重音,很可能要依赖于技术的根本性进步。
结论
学界前辈皮尔斯、乔姆斯基和明斯基曾经严重质疑过当年流行后来复活了的一些经验主义方法。他们的反对意见涉及许多当代流行的方法,包括机器学习(线性分离机)、信息检索(向量空间模型)、语言模型(N 元文法)、语音识别(隐式马尔可夫模型)和条件随机场。
学生们需要学习如何有效地使用流行的近似模型。乔姆斯基指出了N 元文法的缺陷,明斯基分析了线性分离机的局限性。许多局限性很明显(由自身算法设计带来的),但即便如此,对其支持与反对之间的争辩有时仍然非常激烈。有时,其中一方的论点不会被写进教科书,只有等到下一代人去重新发现和复兴这些被遗忘的思想。我们应该鼓励下一代学者充分了解辩论双方的论据,即使他们选择站在一方或另一方。
20 世纪90 年代,当我们复兴经验主义时,我们选择了实用主义的理由来反对我们导师的观点。数据从未如此丰富,我们能拿它做什么呢?我们认为,做简单的事情比什么都不做要好。让我们去采摘一些低枝果实。虽然三元模型不能捕捉到一切语言现象,但它往往比其他方法更有效。捕捉我们可以轻易捕获的一致性事实,要比好高骛远试图捕捉更多语言事实而最终得到更少要好。
这些说辞在20 世纪90 年代有很大的意义,特别是学术界在前一波繁荣期提出了很多不切实际的期望。但是今天的学生在不久的将来可能会面临一系列非常不同的挑战。当大多数低枝果实采摘完毕,他们应该做些什么呢?
具体就机器翻译而言,统计方法的复兴(例如文献)由于实用主义的原因,始于采用有限状态方法。但随着时间的推移,研究人员已经越来越接受使用句法捕捉远距离的依存关系,尤其是当源语与目标语缺乏平行语料库,或者当两种语言具有非常不同的词序的时候(例如,从主谓宾词序的语言(如英语)翻译到以动词收尾的语言(如日语))。展望未来,我们可以预料到机器翻译的研究会越来越多地使用越来越丰富的语言学表达。同样,很快也将有一天,重音将成为语音识别的重要依据。
既然计算语言学教科书不可能涵盖所有这些内容,我们就应该与其他相关科系的同事合作,确保学生能接受到广泛的教育,足以让他们为所有可能的未来做好准备。
选自《中国计算机学会通讯》第9卷第12期。本文译自Linguistics issues in Language Technology, 2011; 6(5) K. Church 的“A Pendulum Swung Too Far”一文。译者:李维(美国网基公司首席科学家。主要研究方向为信息抽取、舆情挖掘等)唐天(美国网基公司首席科学家助理兼助理工程师。主要研究方向为自然语言处理和机器学习)。机器之心授权转载。
【补记】
"任何时候,只要一个语言学家离开研究组,识别率就会上升。“ (Fred Jelinek,1988)
(关于这句名言,可参见【立委随笔:文傻和理呆的世纪悲剧(romance tragedy)】)
原文【参考文献】列表
References
Bishop, Christopher. 2006. Pattern Recognition and Machine Learning. New York: Springer.
Bloomfield, Leonard. 1933. Language. New York: Henry Holt. ISBN 90-272-1892-7.
Brown, Peter, John Cocke, Stephen Pietra, Vincent Pietra, Frederick Jelinek, Robert Mercer, and Paul Roossin. 1988. A statistical approach to language translation. In COLING.
Brown, Peter, Vincent Pietra, Stephen Pietra, and Robert Mercer. 1993. The mathematics of statistical machine translation: Parameter estimation. Computational Linguistics 19:263–311.
Chomsky, Noam. 1956. Three models for the description of language. In IRE Transactions on Information Theory, vol. 2, pages 113–124.
Chomsky, Noam. 1957. Syntactic Structures. The Hague: Mouton.
Chomsky, Noam. 1965. Aspects of the Theory of Syntax. Cambridge, MA: MIT Press.
Chomsky, Noam and Morris Halle. 1968. The Sound Pattern of English. New York: Harper & Row.
Church, Kenneth. 1980. On memory limitations in natural language processing. Tech. Rep. MIT/LCS/TR-245, MIT.
Church, Kenneth. 1988. A stochastic parts program and noun phrase parser for unrestricted text. In In Proceedings of the Second Conference on Applied Natural Language Processing, pages 136–143.
Church, Kenneth and Robert Mercer. 1993. Introduction to the special issue on computational linguistics using large corpora. Computational Linguistics 19:1–24.
Firth, John Rupert. 1957. A synopsis of linguistic theory 1930-1955. In Special Volume of the Philological Society. Oxford: Oxford University Press.
Francis, W. Nelson and Henry Kucera. 1982. Frequency Analysis of English Usage. Boston: Houghton Mifflin.
Hall, David, Daniel Jurafsky, and Christopher Manning. 2008. Studying the History of Ideas Using Topic Models. In EMNLP, pages 363–371.
Hastie, Trevor, Robert Tibshirani, and Jerome Friedman. 2001. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer-Verlag.
Hutchins, John. 1996. ALPAC: The (In)famous report. In MT News International, pages 9–12.
Jurafsky, Daniel and James Martin. 2000. Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition, and Computational Linguistics. Prentice-Hall.
Lyons, John. 1968. Introduction to theoretical linguistics. Cambridge, England: Cambridge University Press.
Manning, Christopher, Prabhakar Raghavan, and Hinrich Sch¨utze. 2008. Introduction to Information Retrieval . Cambridge University Press. ISBN 0521865719.
Manning, Christopher and Hinrich Sch¨utze. 1999. Foundations of Statistical Natural Language Processing. Cambridge, MA: MIT Press.
Miller, George and Noam Chomsky. 1963. Finitary Models of Language Users. In D. Luce, R. Bush, and E. Galanter, eds., Handbook of Mathematical Psychology, vol. 2, pages 419–491. New York: Wiley.
Minsky, Marvin and Seymour Papert. 1969. Perceptrons. Cambridge, MA: MIT Press.
Minsky, Marvin and Seymour Papert. 1988. Perceptrons. Cambridge, MA: MIT Press.
Pierce, John. 1961. An Introduction to Information Theory: Symbols, Signals and Noise. New York: Dover Publications, Inc.
Pierce, John. 1969. Whither Speech Recognition. Journal of the Acoustical Society of America 46(4P2):1049–1051.
Pierce, John. 1970. Whither Speech Recognition II. Journal of the Acoustical Society of America 47(6B):1616–1617.
Pierce, John, John Carroll, Eric Hamp, David Hays, Charles Hockett, Anthony Oettinger, and Alan Perlis. 1966. Language and Machines: Computers in Translation and Linguistics. Washington, D.C.: National Academy of Sciences, National Research Council.
Roe, David and Jay Wilpon. 1993. Whither Speech Recognition: The Next 25 Years. IEEE Communications 31(11):54–63.
Rosenblatt, Frank. 1962. Principles of Neurodynamics; Perceptrons and the Theory of Brain Mechanisms. Washington: Spartan Books.
Simon, Herb. 1960. Management by machines: How much and how soon? The Management Review 49:12–19 and 68–80.
Sinclair, John. 1987. Looking Up: An Account of the COBUILD Project in Lexical Computing. Glasgow: Collins.
Sinclair, John, Patrick Hanks, Gwyneth Fox, Rosamund Moon, and Penny Stock, eds. 1987. Collins COBUILD English Language Dictionary. Glasgow: Collins.
Steedman, Mark. 2008. On Becoming a Discipline. Computational Linguistics 34(1):137–144.
Tukey, John. 1977. Exploratory Data Analysis. Reading, MA: Addison-Wesley.
Weizenbaum, Joseph. 1976. Computer Power and Human Reason. San Francisco: W. H. Freeman.
转载本文请联系原作者获取授权,同时请注明本文来自李维科学网博客。
链接地址:https://wap.sciencenet.cn/blog-362400-712904.html?mobile=1
收藏