博文

【新智元笔记：搭配面面观】精选

已有 3511 次阅读 2016-2-4 17:59 |个人分类:立委科普|系统分类:观点评述| NLP, 搭配

我: 外国人学汉语，常常闹搭配错误的笑话，但是并不影响语义的交流，譬如：你会弹小提琴么？我拉钢琴拉得不好。我女儿算假洋鬼子，最常闹的笑话是：我不要穿这个帽子！

如果乔姆斯基用 green ideas 例示显示 (【从 colorless green ideas sleep furiously 说开去】)，关系语义（即逻辑语义）的传达可以违背常识语义，关系语义决定于句法形式，我们同样可以用上面的这些例子显示，普遍句法中的概念组合的关系，可以违背特定语言的搭配习惯，而不影响关系语义的传达。这种违反语言习惯而不影响语义的例子，还有更深一层的启示，就是，搭配关系这类东西可以放到语言的词典里面，而不要放到句法里面。当然词典与句法需要一个友好的接口。

词典就是垃圾箱，搭配对语言听上去地道不地道虽然很重要，但语义上也就是垃圾级别的东西，没有啥信息，是人类强加给自己的负担，增加的是信息冗余度。当然，任何冗余都可能有好处，因为有了这类词一级的搭配，即便距离很远，也容易靠。这就增加了大脑或系统的容错性或鲁棒性。这一特点也是可以善加利用的，使得远距离的工作自动处理起来可以相对轻松一些。

最后，形态语言中的所谓一致关系 agreement 实际上就是语言的词搭配的抽象化结果。一个动词或介词在其 subcat 中对于某个 argument 强行地要求某个格（case），这就是搭配的morphology化。因此有格标记的语言显然是可以更加词序自由和远距离联络，因为agreement产生的信息在起作用。如果语言从形式角度一定要分高下的话，理性的答案是，很显然的，抽象地利用 morphology 范畴的 agreement 比起孤立语中大量使用具体的词之间的搭配关系，要高明很多。它们起到的是相同或类似的作用，利用冗余信息帮助确定关系语义，但前者更加经济合理。

白：@wei 用合成词的方式解决相对松耦合的搭配问题，略显笨拙，应该有更好的方案。

它首先应该具有语料相关性，没得说。其次它应该具有能产性，不局限于语料，可以泛化。再者它应该具有衰减性，对离开语料太远的泛化，应该有一种“不安全”的预判。最关键的是，句法应该有办法把远距离相关的搭配成分拉近，让它们有机会纳入搭配判别机制。而根据上述要求，搭配判别机制最理想的实现机制，是统计机器学习。

你总不能把管乐器、弦乐器、键盘乐器、弹拨乐器、打击乐器这些标签都塞词典里吧？但是适当粒度的聚类可以解决这个问题。如果语料里没有出现过“拉大提琴”，但“大提琴”和“小提琴”聚在一类，和“竖琴”没有聚在一类，就可以推测“拉大提琴”的搭配安全些，“拉竖琴”的搭配不太安全。当然，聚类使用的特征是综合性的，除了“拉”这样的动词，还有别的。

我经常讲规则和统计“波粒二象性”，这个就是一例。靠规则把远距离的拉近，靠统计把有模糊标准弹性边界的搭配筛选出来，靠规则把远距离的候选拉近。

张: 很对！

白: 如果是以生成为目的，对搭配的约束应再严一些。

张: 规则谋大局格物致知，统计算细节见微知著。

白：以分析为目的，对搭配的尺度可以放宽。有些外国人的不当搭配我们也能理解，就是这个道理。小孩子偶尔会说“吹小提琴”，就是自己的聚类粒度没有调整到合适的水平，纠正了就好了。词典还是要避免成垃圾筐。语料成垃圾筐没关系，统计会把其中的精华提出来。

我：乐器标签的事儿也无不可。hownet 不就是做这个的吗？用统计学聚类应该是靠谱的。宽松尺度无论人控机学都是挑战，因为稀疏数据的限制。

白: 我有一个搭配就拿不准：玩橄榄球，可以说“踢橄榄球”吗？

我: 不稀疏的地方大家都能切一刀，稀疏了都见不到。人拍脑袋，常走偏，机器连脑袋都没得拍，很难说高下。到目前为止我最服统计的是千头万绪的问题，那类问题不得不承认即便专家也敌不过机器。文本分类就是。mt中的ngram记忆也是机器远比人强但结构转换smt就抓瞎为多了。ngram记忆对付那些个成语翻译，人要是一点点去抠，无论如何赶不上趟，这个不得不服。

搭配是共同体的约定，这个标准可以有统计的实证，然后给人一个假象要想逻辑地表达语言你就被人取笑为不地道

白: 比如“大”在上海话里什么时候读“da”什么时候读“du”，用规则就很难穷尽。北京话里什么词语儿化什么不儿化，也是一样。

宋：立委讲到“穿帽子”闹笑话，但是中国人明白是“戴帽子”。对于V+N的错误搭配，总认为是V错而不是N错。我想这是因为N在环境中，有具体形象，不大容易错，V比较抽象。不管什么原因，这就减少了人的误解，但机器未必，除非你告诉它N一般不错。

我: 这些规则难以穷尽的地方大多是“上帝人为”的东西，意在让人类忙于做无用功。

白: 不同语言也有差异性。演奏乐器，英语就一个play拉倒。

我: 说明就够了，一个上位概念就把核心信息传达了。

白: 搭配是文化的体现。搭配错了，说你没文化。不好混圈子。

我: 是，最典型的是黑话。不懂黑话，没法混江湖。这些都是拔高门槛的办法，虽然本身没有逻辑或语义价值。

白: 圈子讲潜规则，潜规则就是统计。

我: 潜规则明明就是规则，不上台面而已，除非白马非马。

白: 封闭搭配词典搞定。开放搭配规则搞定。半开放搭配统计搞定。其实统计也不叫搞定，应该叫对付。谁也搞不定，因为边界本身就不确定。

我: 谁也搞不定就是我说的遇到稀疏数据的时候。

白: “踢橄榄球”好像就在稀疏区域。不知道橄榄球在中国有一天普及了会是什么情况，现在只有少数人玩，行与不行，都无碍汉语的大局。我记得有一位长者，名字不说了，在上世纪九十年代把发邮件说成“打email”。明显地从“打电话、打电报”泛化而来。但那个时候数据稀疏，使用email的主力人群不在国内。国内主力人群起来了，大家动态交流中选择了“发”，搭配就确定下来。NLP应该像输入法追踪流行词库那样追踪流行搭配，把静态问题变成动态问题。昨天稀疏，今天就不稀疏了。从稀疏到不稀疏，中间会经历一段乱象，没关系。输入法还有个性化词库呢，NLP有个性化搭配库，也是可以接受的。说不定这么一协同推荐，你今天的个性搭配就成了大家明天的标配。基于统计的协同推荐比较成熟，基于规则、规则套例外例外套规则的协同推荐就不然了。至少是个新课题。采样/推荐在云端，泛化/个性化在本地。

我: 记得我导师就说“打个email”。

梁: 其实“穿帽子”，“踢橄榄球”没什么不可，这边小朋友学中文要是这样说，不算错。讲的人多了，流行起来就好了。

白: “一片心意”的搭配很好玩。“一片”两个意思，一是“很薄的物体”，跟名词搭配，北京这边还要儿化；一是“弥漫着”，跟形容词搭配，不儿化。但是“一片心意”一组合，既不儿化，又不搭形容词，效果是既微薄，又弥漫。

梁: 是啊，这个“片”字怪怪的。可将“心意”想象成薄薄一层莎。

白: 搭配有延伸性，不仅踢足球，还可以踢加时赛、踢两个赛季。不仅弹钢琴，而且可以弹李斯特、弹肖邦、弹拉二。甚至弹左手、弹八度。

我: 这些个搭配对于分析用处不大，其具体含义大多休眠，直到语用要用的时候。

白: 但它们照样会远距离相关。句法识别不出来，后面就可能掉链子。那两个小节，他怎么也弹不好。或者把逗号去掉。“小节”是有歧义的，“弹”的呼应，可以消岐。“弹”凭什么呼应？当然就是搭配。“小节”是“曲子”的标配部件。弹曲子，延伸到其部件。好几个越位他都没吹。“吹”和“越位”的搭配，也很奇葩。越位是比赛中的犯规现象，吹是裁判在比赛中的执法动作。两个词都是延伸的产物。

总而言之，不识别搭配，句法分析难以完整。对分析而言，波粒二象性都要管。两手都要硬。

我: 搭配、虚词和语序是汉语句子重要特征，做汉语分析离不开搭配。

白: 我的观点：1、搭配，词典、规则各解决一部分，还有一部分需要统计解决。2、考虑到语言中的远距离相关现象，需要借助句法规则把远距离相关的疑似搭配候选拉近，统计才有用武之地。3、搭配是个动态现象，要不断统计、不断跟踪、持续推送。4、搭配具有延伸性，没有类似知识图谱这样的语义资源，仅依靠字面统计，难以胜任。

荀: 搭配是语言发展的产物，搭配强度是连续的，就像色谱一样，在用的时候存在怎样对待问题，一是刀不好切，另外，不像ngram，有比较好一致性的数学度量手段，白老师的给出了思路，是几手处理的方案，词表，规则，统计。三者如果统一到一个统计度量框架下就更好了，现在的困难是处理远程搭配和数据中未见的符合逻辑的搭配感觉，目前的深度学习框架可以试一试，比如利用rnn

白: 远程必须借助句法，泛化必须借助多特征，包括语义特征和沿知识图谱爬行出来的特征。RNN不能简单算统计了。有一定的远程捕捉能力，词向量化后，具有一定的语意蕴含，当然这种计算一定有其上限，规则也可以编译到RNN，语料也可以学习成CFG。目标知识表示和获取知识的手段，是两个独立的问题。刚才一个群里说：我把指数卖了。这个就是沿知识图谱的延伸。其实说的是，把自己拥有的某指数的成分股卖了。知识图谱上的近邻，对于搭配都是有贡献度的。这在一定程度上，可以抵消数据稀疏带来的影响。无需本人亲自出场，亲戚也算，打点折扣。

我：结构分析拉近距离问题不大。黑箱搭配，譬如“洗澡”，距离再远，都好办。沿着parsing节点几级跳就跳到了。非黑箱搭配跳远的距离有一些限制，但是，不远的，句法就搞定。远一点的，扔掉就扔掉了，直到语用现场发现有这种必要。这时候语用的领域限制自然地可以有助，帮助把扔掉或曰休眠的搭配重新接上。

总之，除了黑箱搭配，其它搭配不是句法的必要条件。相反句法是做搭配的基础，如果想做的话。说搭配是句法分析的前提或必需，有相当的误导。这是把本来大部可以摘除出来的语义硬揉进了句法，其结果是吓到了胆小的，成全了冒险家。我们永远可以找到搭配帮助句法的例子，正如我们可以找到常识或专业知识帮助句法的例子。但这都不足以让系统本末倒置。

白：这会引出另一个话题：通用parser存在的意义。如果%90的应用都在向语义语用要潜力，为了10%的应用而拒绝一个举手之劳，图什么？更何况，这个举手之劳本身并不在语义语用层面，只是做了会对后续处理更有帮助而已。

我: 问题是远非举手之劳。据说可以先行offline统计习得，然后以适当形式词典化，然后才去与句法对接。对接的时候还要动态调整聚类宽松度。不是不可以做，而是，第一，绝非举手之劳。第二，也大部可以作为句法后语用前的中间件，而不是先于句法或必须与句法同步。

白: 对于poor句法，没有也可以。看追求了。反正工作量此消彼长。背着抱着，从一个局部看是一样的，从一个产业看不一样。

我: 不单是poor一个角度，还有一个轻装的角度，作为通用件。

白: 通用件是一个商业概念，不单纯是技术概念。一个http server是可以追求轻装，但含中间件的套件更卖钱。轻装的卖不出价钱。而且大家为了实现在搭配基础上的语义语用，还要自己重复发明轮子。站在一个产业角度想问题，这个举手之劳是值得的。况且，吃浅层老本和规模红利的年代正在过去，新型的NLP产业，没有深层的应用怎么好意思。搭配这件事，应该像输入法一样做成全网在线基础设施。谁都可以通过标准化方式调用，也可以个性化定制。

谭: 这应是一个产业，大家可公用。

我: Hownet 没成为产业，何以见得统计搭配资源可以成为产业？如果是国家资助，大学研究所参与，作为公益项目，还差不多。或者就是大企业开源，赚的就是个名声。facebook、谷歌能够开源ml和ai工具，也可以开源这些资源项目。

白: 不需要那么大的个头。它自身也不能成为产业，只是支持NLP相关产业而已。广义看和词典一样黑盒子，不过这黑盒子一头在外，就像输入法的外部词库一样。由外面的语料来决定和更新内容。

【相关】

【新智元笔记：搭配二论】

【新智元笔记：汉语分离词的自动分析】

【从 colorless green ideas sleep furiously 说开去】

【置顶：立委科学网博客NLP博文一览（定期更新版）】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：https://wap.sciencenet.cn/blog-362400-954489.html

上一篇：有朋友的孩子要学天文、宇宙，镜某也是很矛盾
下一篇：【新智元笔记：搭配二论】