计量语言学会议结束了,忙了多日,补觉半日,该写点总结了。
计量语言学,是用数学方法研究语言的学科。按道理说,科学都应该使用数学方法,但语言学更多地是作为一个学科,科学性一直难以完全复刻理工科的套路。究其原因,是语言太复杂,是一个复杂系统,应该需要大数据方法来基于真实语言数据进行实验和分析。但偏偏语言的大数据非常芜杂,比单纯的物理世界更加光怪陆离。而语言的意义部分,一直难以获取和描写,所能收集和分析的只是语音和文字。
所以,在计量语言学中,计量的对象不是意义,而是语音和文字。
计量的工具,显然应该是概率统计学,一个字词的出现概率,词语关联的概率,跨语言之间的差异,历时发展的演化。统计出的结果,往往呈现出正态分布、长尾分布。而人们希望能够计量出语言的本质规律,这种规律首先是描写性的,然后是解释性的。
齐夫定律,其实就是一种长尾分布,属于现象级描写。有用处,但如何解释还缺乏足够的力度。为什么世上的事物总是大量地呈现出正态、长尾分布?竞争使然,还是自然而然?
这次研讨会的重点,并不在概率上,而是在如何解释大语言模型的威力?LLM到底是概率强,还是链式方式强,还是神经网络强,抑或是词向量技术强?刘海涛老师认为,Hinton得奖,应该有Mikolov的功劳。词向量解决了语义表示问题,用概率化的向量来描述一个词的上下文,逼近一个词的意义表示。
这个问题,我在课堂上分析过,在Mikolov之前,语音和图像识别借助深度学习技术取得了突破性进展,文本上没有什么进展。语音和图像的神经网络输入层都是向量,文本是一个个的字符,没办法很好地喂给模型。把字词转换为向量,就是一个接口问题。在Mikolov之前,不少人已经尝试用一个词的上下文形成一个向量,例如典型的词袋模型(bag of words)和向量空间模型(VSM)。有趣的是,在机器学习领域,人们一直很不解,为何VSM经常可以取得很好的效果。在LLM时代,这个问题就好解释一些,因为向量的这种表示方法,比单纯的文字符号相比,具有更多的临近关系信息。当字词向量喂给神经网络之后,整个网络就获得了更好的活力。反观人类的大脑,神经元之间的信息传递,显然也不是离散的、缓慢的,很可能也是类似于向量的方式,快速地传递大量信息。
但是,如果我们把目光放在词向量和LLM之后,语言计量的研究,将发生重大的变化。因为,计量的对象不再只是文字,而是神经网络和词向量,要回答神经网络的哪些特性是关键的,词向量的哪些属性是关键的。
我在报告中讲出了多年思考的心得,计算语言学的进展得益于信息论关于语言编码、解码与信息传递理论,其次得益于机器学习技术的发展。机器学习的算法,往往促使语言数据形态发生了诸多改变。当分类器盛行的时候,词语的类别就很重要;当结构化分析盛行的时候,句法树就发展起来;神经网络发展起来,图结构的资源被更为重视;而词向量出来之后,高质量超大规模语料库就显得更为重要。
探寻语言本质,就像剥洋葱,靠文字叙述总是无力的,还是要紧紧依靠数学工具,甚至发展出新的数学工具。就像牛顿发明微积分用于运动分析,矢量用于力的分析,张量网络用于量子分析,等等。也许更需要的是度量单位的革新,牛顿、焦耳、瓦特、安培,都是从无到有的发明,衡量那些前人难以言说的物理量。那么,语言的度量单位,就不应该仅仅只有词、短语和句子;数学方法更是值得更新。如果说,乔姆斯基发明出NP、VP这一套单位,但本质上不是一个计量单位。我们应该深入地思考,更应该更多地实验,在大数据和深度网络上找到灵感。
冯志伟老先生的数理语言学就是这样的追求,计量也好,数理也罢,让我们继续加油吧!
转载本文请联系原作者获取授权,同时请注明本文来自李斌科学网博客。
链接地址:https://wap.sciencenet.cn/blog-39714-1456136.html?mobile=1
收藏