李斌
悼念语义知识工程的开拓者董振东先生 精选
2019-3-28 20:09
阅读:6798

惊闻董先生已于一个月前在蒙特利尔去世,非常悲恸,不得不写一篇小文悼念先生。 

QQ截图20190328200708.png

董振东先生,1937年4月生,上海人,自70年代即开始从事机器翻译研究工作,1987年成功开发了我国第一个商品化机器翻译系统原型《科译1号》。1987年至1992年,他担任中国、日本、马来西亚、印尼、泰国五国多国语机器翻译国际合作项目的中方技术负责人。1990年作为"905"中文信息平台项目的总体组负责人,指导和规划了平台的总体设计和实施计划。在机器翻译的研究过程中,董先生发现语义是必须解决的问题。虽然早在1966年,美国就因为语义障碍太难,停止了对机器翻译研究的资助,直到90年代初才走上了以统计机器学习为技术基础的研发道路。董先生在90年代初并没有跟随欧美的新动向,而是以一己之力,创造性地提出解决多语言翻译的语义障碍的方案——《知网》,并经过十年耕耘,建成了英汉各五万多词的语义知识库。这个《知网》不是XX期刊网,而是一个英汉双语的语义知识库,英文名HowNet。可惜董先生当时没有注册商标,才被XX期刊网用去了。

《知网》,对于语言学界是陌生的,对于计算机学界也是一样。但这并不能否定知网本身的价值。我曾经写了一篇论文,从语言学角度专门介绍《知网》,可惜发表在一个辑刊上,浪费了文字。言归正传,董先生的《知网》有三大贡献:

(1)超越和发展了传统的义素分析法、语义场、语义分类树的理论。1999年,知网正式发布了第一版。与以往的语文词典、分类词典不同,知网对于词义的刻画不再是零碎的或随文释义的,而是用义原(最小的语义元素,类似于义素)来解释词语。比如“大学生”可以解释为:人|person, 教育|education, 高等|highrank。每个义原都是双语表示的,总共有2000多个义原用来解释五万多个词条。与义素分析法不同,这些义原不是随机的,而是有体系的,比如 人|person,有上位的 动物|animal 等义原。2000多个义原是一个良好分类的层次结构。这样就避免了直接把词放在层次体系中,这比1995年普林斯顿大学发布的WordNet更好,多个义原的组合能够更好地表征一个词的义项。而在2002版之后,董先生更是将义原组合起来,表示出“大学生”是高等教育机构的学习者这样的意思。

大学生:{human|人:{study|学习:agent={~}, location={InstitutePlace|场所 : domain = {education|教育},modifier={HighRank|高等},{study|学习:location={~}},{teach|教:location={~}}}}}

 

可惜的是,董先生专注于资源的建设和应用,学界没有多少理论文章来阐释其在词汇学和语义学上的贡献与突破。

(2)建设了汉语第一个结构化的语义知识库。在董先生之前,汉语没有结构化的语义知识库,只有些语文词典和义类词典。即使放眼国际,也没有其他的词义知识库能够和知网的架构相媲美。WordNet是基于义类的体系,FrameNet只关心谓词;后来许多词义的Net大都是从网上自动获取,以<词1,词2,关系>的三元组的形式。从规模上看,知网后期英汉收词都超过了10万个词条,近20万义项。是真正大规模的人工知识库。这个库在发布之初就有许多企业和单位购买,去年清华大学还把它集成到深度学习框架中,发现确实可以提高词义计算的效果。

(3)静态与动态语义相结合。《知网》不只是有静态的词义,还考虑了谓词的论元关系、短语意义的表示、褒贬色彩、事件语义转移等等。最典型的例子,莫过于“杀”这个例子:可以描写为A 杀B,导致B 死。虽然这种动态语义在学界才刚起步,但知网已经描写了大量的实例,真正面向了活的语言现象。

{kill|杀害} (X) <----> {die|死} (Y) [consequence];

  patient OF {kill|杀害}=experiencer OF {die|死}.

 

写到这,貌似跑题了。其实没有。这些介绍只是为了体现董先生对于语义学的贡献。

董先生对我也是点拨颇多,在我研究过的三个主要问题上都受益匪浅。当年,2003年董先生来南师大介绍知网,我被知网迷住了一段,写出了知网的体系综述文章。2007年在南大跟董先生请教动宾搭配的问题,先生建议我用大规模语料彻查影响搭配的因素有哪些,从而造就了我从语义类、属性、认知事件框架、褒贬指向四个角度进行研究,发现了传统所说的语义类约束的严重局限。2010年在网上跟董先生请教认知属性的问题,也是明确地指出我的研究属于文化意义,是基于特定语言文化的,不是跨语言有效的,让我更清晰地界定了研究对象。最后是关于句子语义。董先生一直说不要局限于树结构,汉语句子的语义表示应该是一个图结构。受此启发,从2010年开始就在摸索基于图的句子语义表示方法,从语义依存图到英文AMR,再到我们大力改进的中文AMR,图论一直在脑海里徘徊。去年,还在跟董先生通过邮件讨论AMR的问题,董先生依然强调语义资源的重要性。虽然董先生晚年在加拿大生活,但仍然十分关心语义计算和知识库的研究前沿,悉心解答年轻一代在研究中遇到的问题。

不想先生突然过世,这是词汇学、语义学、语言知识工程的重大损失。愿先生的在天之灵安息,愿语义计算这块NLP的硬骨头在先生开拓的道路上早日攻克。


                                            2019年3月28日于金陵随园




转载本文请联系原作者获取授权,同时请注明本文来自李斌科学网博客。

链接地址:https://wap.sciencenet.cn/blog-39714-1170199.html?mobile=1

收藏

分享到:

当前推荐数:4
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?