李维
《李白宋梁130:从短语结构的词序基础约束到大模型向量空间的天马行空》
2022-8-17 21:03
阅读:575

李:网上看到一句话,所谓 legalese(法律语言),语言学上有点意思:

研究人员不曾因、不因、也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。

格式是:

不曾因、不因、也将不会因NP而VP

语义是:

过去不、现在不、将来也不(因NP而)VP

本来时态助词(“曾/将”)、情态动词“会”与否定副词“不”,都是跟着动词跑的,现在由于介词并列,闹得似乎是必须跟着介词 “因”,先构成介词短语,然后才去挂靠动词。

研究人员 PP<【不曾因、不因、也将不会因】NP<本报告中的具体推荐意见或观点>> 而 VP <直接或间接 V收到 NP<任何形式的补偿>>。

而不是(如果没有介词并列):

研究人员 不曾 PP<因 NP<本报告中的具体推荐意见或观点>> 而 VP <直接或间接 V收到 NP<任何形式的补偿>>。

白:就是三个括号么

李:假如没有介词并列的话,”不曾” 与 “因” 通常不先绑定的。

参照一下英文句法对等物:

“did not VP due to X “
” does not VP due to X”
“will not VP due to X

白:可以用龟息大法,给这个绑定留半口气,别的实在走不通,可以走这个,前提是有顿号。

“我可以不向也不代他人向你提出任何要求。”

这个就彻底死了。代他人,这是要连谓的节奏,怎么知道什么时候要并列。

这边等着动词,还不赶紧把介词吞了,那边介词要并列,找不到同类。

太妖了……

李:好例子!要害是汉语的介词是从动词退化而来的,所谓副动词。时不时动词性可以还魂。

白:

“谓略”增出来S坑,由“提任何要求”来填坑,性质是“共指”。就是说,我介词不仅省略了介词宾语,还省略了中心谓语。这个中心谓语我暂且填一个虚的,应付合并的差事。有朝一日大家的辖域统一了,再从里面找到共指的实的中心谓语。当然,省略的介词宾语也一起找了回来。

有否定词和情态词的情况下,介词并列是不合逻辑的。我们索性不走这条路,而是走把省略的中心谓词假装补出来,用否定词和情态词跟假装的中心谓词发生关系,同时,眼睛瞄着真正的中心谓词,用一条共指边来化假为真。这个“谓略”操作是“升格”操作的细化。还是在关联语法的大框架里面。

所以,介词并列只是一个假象。介词所修饰的谓词并列才是本尊。虽然它们有的比较羞涩,躲起来了,但是被否定词/模态词强制发生关系的语言环境还在,所以有现成的照妖镜把它们揪出来晒在光天化日之下。这样,种种看似不合理的现象、种种跑不下去的分析就都迎刃而解了。

李:这个问题的根子还是出在“短语结构”解析法(乔老爷的 phrase structures)。它把词序带入过程性,作为一切解析的基础。每个词(概念)被词序牢牢定住,你没有办法自由飞线,“a b c” 串的a要想跳过b与c暧昧,必须 a 先拉拢 b 或让b去投靠c。

白:没错。允许非树,允许把一处子树整体复用到另一处填坑,就不是问题了。

实际上关联有两种:合并辖域的和不合并辖域的。合并辖域的既要关联,又要相邻。不合并辖域的关联即可,无需相邻。于是就有了飞线。有了拖油瓶的坑。

李:深度学习的进展在这方面给人以启发。一开始深度模型都怕自然语言,因为自然语言与神经最先爆发的图像不一样,最大的不同是词序,也就是时序性。CNN 不能很好反映这一点,于是出来一个 RNN,本质上就是想贯彻短语结构的基础性约束。后来 RNN 基本被搁置了,出来了以 attention 为核心的 transformer,其实就是把词序的基础地位动摇了,允许任何节点与任何节点发生影响,“飞线”全覆盖、全连接。全覆盖的早期顾虑是组合爆炸。

白:飞线也是有形式演算的,什么位置之间可以拉,一点都不爆炸。

李:现如今,计算本身提升了,也不怎么怕爆炸了。初期可以爆炸,只要后期有办法收敛就行。

想一想思维与语言的关系,感觉思维的时候,特别容易天马行空,就是说不受时序基础约束。到了需要表达的时候,硬是走了“窄门”,变成了 list(语音流、字符串)。这原本应该是器官的物理约束:语音只能一个一个发,字只能一个一个写,后来反作用于思维增加了严谨性,成为文明和知识沉淀、积累和传承的形式保障。现在的大模型貌似冲破了这种形式约束,回归到天马行空的混沌状态(所谓多维度向量空间)。

这种回归本来应该是不可收拾的,没有规矩,难成方圆。但奇就奇在人们找到了收敛的方式(backprop?)。

有一得 必有一失。获得了自由,肯定带来严谨性(逻辑性、层次性)的硬伤。只不过在数据主义的大潮中,这种硬伤被统计性掩盖了,越来越难揭示。

白:如果人家本来就是各种因素角力,无所谓严谨性呢?

严谨性体现于“演算”,灵活性体现于演算中的“选择”。选择是多因素角力的结果,要角力就必须统一度量衡,所以要用深度学习来“称重”。

分场景。真跟数据库打交道,不行的立马露馅儿。

梁:人,一开始是局限于自己眼睛能看见的,脚能走到的,感觉器官。后来局限于自然语言,别人创造的语言。后来人有了抽象思维能力,发展出了数学,觉得数学语言更严谨,精美。 自然语言太粗糙了,太局限了。

李:这也是一点。但人类文明和知识积淀中,肯定有一些部分是必须在严谨性基础上才可以传承和发扬的。但确实有很多东西,对严谨性没有那么强的依赖。

缺乏严谨性造成的硬伤越来越难揭示,原因之一是:每一个硬伤反映到数据上,可以看成是一个数据(主要是稀疏数据带来)的 bug 而已,只要被人发现,迟早会被局部解决。

梁:局部解决,总不如全局解决,从根本上解决好。

李:局部解决的积累,就从统计上保证了硬伤变得越来越罕见。

梁:数据稀疏,不是 bug,是 feature. [Grin]

李:对于数据工作者,二者基本不分。

说到深度学习的大模型,今天看到文字转图片模型 DALLE-2 的进展,值得推荐:

AI绘图到底是天才画手,还是潘多拉魔盒?:
https://www.wenxuecity.com/news/2022/08/15/11768877.html

不知道国内不翻墙可以看否?总之,长期以来人类视为人类智能的精华的所谓灵感、想象力、艺术性、风格等反映人类的独特创造性的元素,在大数据大模型条件下,已经不仅仅被 AI 模仿,而且被 AI 超越。很多时候,甚至可以说不是贫穷限制了(普通)人类的想象力,而是一般人大脑所能吸收存贮的数据量限制了人类的想象力。当然,总可以 argue 说,所有这些 AI 的诡异和非凡的想象力和创造力都源自于首先有无数的艺术家产生了无数的作品,并有有心人对这些作品做了文字标记或说明。的确如此。然而,人类艺术家不也是如此吗?一个人从娘胎出来并不立即成为艺术家的,艺术家总是在观摩其他艺术家的作品,在漫长的勤学苦练中,凭着自己的天才特长,站在艺术家先人的肩膀上成就的。在“AI艺术”流行的必然趋势和大潮中,有一点可以肯定:少数顶尖的一流艺术家也许还可以继续自己的魅力和发挥自己的影响,二流三流的艺术家已经没有自身艺术的出路了,他们或者被取代,或者与电脑合作成为电脑作品的后期编辑者、鉴赏者或挑选者。一些例子非常有意思,注意AI艺术生成的输入文字:1 input:金毛寻回犬小狗坐在小餐馆里喝咖啡,看起来很忧郁 – Edward Hopper风格”; 2. input:“日出时狐狸坐在田野上的画作,莫奈风格”; 3. input:半人半机器版达利 (注:达利是超现实主义画家,AI 艺术大模型的命名 DALL-E 就源于他)

宋:研究工作包括:发现问题,提出问题,分析问题,解决问题。现在的AI在解决问题方面,在很多领域做得确实不错,但是分析问题方面就差了,表现在对于解决的问题不能提供有说服力的解释。至于提出问题和发现问题,好像还没有什么表现。
与此相似,在艺术方面,AI可以做一些命题艺术品,即给出一个题目,AI也许可以完成得不错。但是,真正的艺术品是作者创作前和创作中对外部世界和内心世界的全部感性和理性认知积累的外在表现,这是AI做不到的,因为AI没有这种积累,除非将来某一天AI具有了独立的人格。

李:艺术只是一个粘接剂,它把艺术家与艺术消费者联系起来。宋老师的上述视点是从艺术家的角度。当然,艺术家与AI模型是两回事儿,前者有“灵性/自我意识”,后者没有,当然有根本区别。要害在消费者的视角:AI模型的生成与艺术家的作品,消费者越来越无法区分(图灵测试的精髓)。上面的几例如果来自人类,很多人会认为作品充满灵性。

咱们可以推向极端来看这事儿。有没有天才的艺术家,他不被任何人认可,没有消费者?理论上是有的,实践中也可以找到一些痕迹:例如某超时代的大师身前无人问津,身后被推崇。这样的极端案例可以凸显艺术家与模型的本质区别。

梁:有的人被动地反映,有的人主动地创造,质的不同。

白:乌合之众是很容易被带节奏的,有几个有独立艺术判断力的。

梁:spread out, 你走你的阳关道,我走我的独木桥。

李:模型一定是追逐大数据的,因此不可能特异独行到没有任何认可。但绝大多数的艺术,都已经归顺市场化的规则,必须有人认可才能鉴定。因此离开消费者的视角谈艺术家的高明,没有太多现实的意义。

白:每个时代都有每个时代的有色眼镜

李:说 “真正的艺术品” 只能出自人类艺术家,不可能出自AI模型。这句话是真理。但听上去属于没有多少现实意义的真理。

实际上,绝大多数的人类艺术家也在迎合大众或小众,这是他们赖以生存的基础。

白:是说让AI做超越时代的判断无意义。就如同用毕加索以前的画作当样本,训练出一个毕加索来。

李:计算风格学提出很久了,在大模型出现之前一直没有突破,如今出现井喷式爆发。这是因为构成风格的要素大多是细节,而细节的掌控,没有比大模型更擅长的了。

 

【外一则】

白:“生死人肉白骨”,这个分词好凌乱。

意思是医术出神入化,能让死人复活,白骨长肉。正确的分词应该是“生/死人/肉/白骨”,“生”是不及物动词的使动用法,“肉”是名词的动词化用法。

李:哦,还以为属于 “枯藤老树昏鸦” 的句式:

生死/人肉/白骨 阴阳/鬼魂/黑血,
一片乌漆 魑魅魍魉炼狱

 

【相关】


李维 郭进《自然语言处理答问》(商务印书馆 2020)

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录


转载本文请联系原作者获取授权,同时请注明本文来自李维科学网博客。

链接地址:https://wap.sciencenet.cn/blog-362400-1351580.html?mobile=1

收藏

分享到:

当前推荐数:1
推荐人:
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?