博文

中国语言技术进展[ZZ]

已有 8970 次阅读 2008-9-10 23:26 |个人分类:自然语言处理

《中国计算机学会通讯》2008年第8期

宗成庆高庆狮

引言

自然语言作为人类交流思想情感最基本、最直接、最方便的工具，随时随地用于生活的各种场景。人类从出生后的第一声啼哭开始，就企图用语言（声音）来表达自己的情感和意图。随着信息时代的到来，人们使用自然语言进行通信和交流的形式也越来越多样、灵活和广泛。然而，人脑是如何实现自然语言理解这一思维过程的？我们应该如何建立语言、知识与客观世界之间可计算的逻辑关系，并实现具有较高区分能力的语义计算？为什么世界上不同人种在拥有几乎相同的大脑结构和语声机理的情况下，却无法实现不同语言之间的相互理解？众多的科学问题至今仍困扰着我们。有关专家指出，语言障碍已经成为制约21世纪社会全球化发展的一个重要因素。因此，如何实现自然语言的有效理解，打破不同语言之间的固有壁垒，为人际之间和人机之间的信息交流提供便捷、自然、有效和人性化的帮助与服务，已经成为备受人们关注的极具挑战性的国际前沿研究课题，成为全球社会共同追求的目标和梦想。

从1956年正式提出人工智能科学以来，自然语言理解（natural language understanding, NLU）就成为该学科重要的研究内容之一。从术语的概念和内涵来看，自然语言理解研究所关注的更多是关于人类思维对语言的加工、理解机理和认知过程等问题，但从最终的应用目的来看，是要实现面向具体任务和应用目标的自然语言处理系统。因此，从这个意义上讲，自然语言理解又称自然语言处理（natural language processing, NLP），其任务是研制表示语言能力（linguistic competence）和语言应用（linguistic performance）的模型，并建立计算框架来实现这些模型，再根据这些模型设计各种实用系统，探讨这些实用系统的评测技术[8]。无论是自然语言理解，还是自然语言处理，研究对象都是人类语言，基本手段都是利用计算机科学和技术、数学、逻辑学和认知科学等。因此，从偏向语言学的角度来讲，自然语言处理又可称为计算语言学（computational linguistics）。综上所述，自然语言理解、自然语言处理和计算语言学三个术语在内涵和外延上各有所侧重，但主体内容相互重叠，为了表述简单，在不引起混淆的情况下本文不再加以区分，通称为人类语言技术（human language technology）。中文信息处理（Chinese language information processing）则是专指以中文为主要研究和处理对象的人类语言技术。

由于文字和声音是人类语言两个最基本的属性，因此，从广义上讲，人类语言技术应该涉及两个层面：一个是以文字表示的词汇、语句、篇章和对话等为主要处理对象的语言技术；另一个则是以语音信号识别、辨认、生成等为主要目的的语音技术。尽管两者关系密切且相互渗透，但在理论基础和实现方法等方面都具有相对独立性，而且有各自独立的学科分支。本文主要指前者，不涉及语音技术的细节。

我国的语言技术从20世纪50年代进行机器翻译研究算起，发展历史已有50多年。在这50多年发展过程中，国内研究者在资源库建设、基础理论和方法研究方面，以及应用技术开发和产业化方面，都取得了一系列重要成果，但是也面临着各种新的问题和挑战。本文在对中国语言技术发展过程做简要回顾的基础上，介绍部分国家重大研究计划及其相关工作，并对目前语言技术领域存在的问题做简要分析。

中国语言技术的发展

语言技术的研究最早起始于机器翻译，从20世纪50年代中期到80年代初期，我国的语言技术研究主要集中在机器翻译方向。

1956年，国家开始考虑机器翻译问题，把机器翻译研究课题列入我国的科学工作发展规划，课题名称是“机器翻译、自然语言翻译规则建立和自然语言的数学理论”。1957年中国科学院语言研究所的刘涌泉等与计算技术研究所合作，开展了俄汉机器翻译研究。1959年，他们在我国制造的104大型通用电子计算机上进行了俄汉翻译实验，翻译了9种不同类型的、较为复杂的句子。在这一时期，北京外国语学院、北京俄语学院、华南工学院、哈尔滨工业大学也分别成立了机器翻译研究组，开展了俄汉或英汉计算翻译研究和实验[14]。

1966年至1975年，机器翻译研究基本处于停滞状态。从1975年开始，机器翻译研究逐渐复苏，中国科学技术情报研究所成立了由情报所、语言所和计算技术研究所等工作人员组成机器翻译研究组，以冶金题录为语料基础进行机器翻译研究和实验。1978年冯志伟赴法国格勒诺布尔理科医科大学自动机器翻译研究中心（GETA，现为法国格勒诺布尔信息与应用数学研究院（IMAG）自动机器翻译研究组，参见网页：http://www-clips.imag.fr/geta）进行汉、法、英、日、俄、德多语言集机器翻译实验，建立了FAJRA系统，在国际上首次将汉语通过计算机自动翻译成法、英、日、俄、德五种不同的语言，取得了一定的成果。1979年至1984年，王惠临被国家教育部选派作为文革后首批公派留学生赴法国南锡（Nancy）第二大学从事机器翻译研究，成为我国第一个获得博士学位的机器翻译专家。

进入20世纪80年代以后，机器翻译研究进入了繁荣时期。1987年中国人民解放军军事科学院研制的“科译1号”机器翻译系统成为这一时期的标志性成果。该系统是实用型全文和题录兼容的英汉机器翻译系统。系统的设计者董振东在这一时期提出了逻辑语义结构的概念。

在同一时期，北京市高立电脑公司与中国社会科学院语言研究所刘倬等合作，开发了“高立英汉机器翻译系统”。

从1980年开始，中国科学院计算技术研究所高庆狮院士领导的研究集体开始进行英汉机器翻译的研究，先后经历了理论研究、模型系统实验和实用系统开发等几个阶段。1982年他们提出了语义单元理论初型[17]。历经27年理论探索[5]，积累了40万语义单元及其双语表示（即自然语言知识组块）初形。在其早期理论初型的基础上，他们在1992年开发完成智能型英汉机器翻译系统（IMT/EC-863），并通过国家级鉴定[11]。在IMT/EC-863系统的研发过程中，研究人员提出了子类文法（sub-category grammar, 简称SC文法），在语法规则中引入了上下文相关条件测试，实现了数据与操作的一体化处理[12]。随后，陈肇雄博士领导开发了世界上第一台袖珍英汉翻译机。该项技术的使用权转让费用达74万美元，创下了当时国内软件技术转让费的最高纪录。

与此同时，中国、日本、印度尼西亚、泰国和马来西亚五个亚洲国家在欧共体的ODA（Official Development Assistance，官方发展援助）计划的指令下，由日本政府出资60亿日圆，日本国际情报化协力中心（Center of the International Cooperation for Computerization, CICC）主持，进行多语言机器翻译研究，历时八年之久。中国计算机软件与技术服务总公司、机电部信息开发研究中心、北京语言学院、中国科学技术信息研究所、东北大学、清华大学、南京大学、中国人民大学等单位参加了这一多国合作项目[27]。

机器翻译研究的蓬勃兴起，带动了中国语言技术相关方向的发展。1987年按照国家有关部门下达的“七五”攻关和国标制订任务，北京航空航天大学、燕山公司系统部、北京师范大学、中国标准技术开发公司等13个单位组成了以刘源、梁南元为组长，陈力伟院士、王云教授和刘涌泉教授三位专家为顾问的国标研制工作组，着手制订现代汉语分词规范。1992年《信息处理用现代汉语分词规范》获得国家技术监督局批准（GB13715），并于1993年5月1日在全国正式实行[22]。汉语自动分词技术和语言资源库建设等基础工作在这一时期得到了快速发展。

大约在1989年，经验主义方法被人们重新认识，基于语料库的统计方法被引用到自然语言处理中。IBM研究人员提出的基于噪声信道模型（noisy channel model）的统计机器翻译（statistical machine translation）模型[2]及其实现的Candide翻译系统[1]，为经验主义方法的复苏和兴起吹响了号角，并成为机器翻译领域新的里程碑，结束了基于规则的机器翻译系统一统天下的局面[6,9]。近几年中国科学院计算技术研究所刘群研究员领导的机器翻译团队在统计机器翻译方面取得较大进展，在国际机器翻译比赛中取得较好成绩。

另外，隐马尔柯夫模型（Hidden Markov Model, HMM）等统计方法在语音识别中的成功运用对自然语言处理的发展也起到了推波助澜的作用。一方面，统计方法在自然语言处理中的广泛应用和快速发展，以语料库为研究对象和基础的语料库语言学（corpus linguistics）迅速崛起，并反过来进一步推动了自然语言处理相关技术的快速发展，一系列基于统计模型的自然语言处理系统相继开发出来，并获得了成功，例如，基于统计方法的汉语自动分词与词性标注系统、句法解析器等。另一方面，语音技术与自然语言处理技术紧密结合，一些新的研究方向被开辟，如人机对话系统、语音翻译等。1989年国际上第一个语音翻译（speech-to-speech translation）实验系统在美国诞生，两年后中国研制了自己的英汉语音翻译实验系统。中国科学院自动化研究所从上世纪90年代中期开始语音翻译研究，并加入了国际语音翻译先进研究联盟（Consortium for Speech-to-speech Translation Advanced ResearchInternational, C-STAR），随后成为该组织的核心成员，参与策划、组织、实施了一系列国际口语翻译研究的学术活动和联合实验[10]。中国科学院自动化研究所、中国科学院声学研究所、清华大学、北京交通大学、哈尔滨工业大学等在人机对话系统研究方面都做出了重要贡献。

与此同时，随着计算机网络的快速发展和普及，语言技术在世界范围内迅速崛起，并成为目前最活跃的研究领域之一。这一方面源于经济和信息全球化时代对多语言信息服务的巨大需求，另一方面则是信息安全和情报处理的迫切需要。相应地，一批新兴的研究方向，如：信息检索和抽取系统、自动文摘系统、问答系统，以及与语音技术紧密结合的语音检索、语音自动文摘等，如雨后春笋般相继诞生并迅速成长。

对中国而言，随着国力的不断增强和国际地位的不断提升，汉语成为继英语之后又一强势语言，中文信息处理技术不可阻挡地成为国际学术界和企业界共同关注的焦点。在这一国际大潮的驱使下，我国的语言技术进入了前所未有的繁荣发展时期。国家和企业界不断加大投入，物质条件得到了充分保障。而这一领域就业形势的看好又吸引着一大批青年学者投身到这一技术的研究。这种态势不仅促使中国语言技术研究的理论水平不断提高，还使其实用化、产业化发展的趋势日益强劲。

成果回顾

在50多年的发展历程中，中国的语言技术研究取得了一系列重要成果。归结起来主要体现在如下三个方面：（1）语料库技术得到充分发展，建成了一批颇具影响的语言资源库；（2）汉语基础问题研究得到长足的进步，理论成果初见成效；（3）应用技术开发蓬勃发展，产业化进程硕果累累。

语言资源开发与知识库建设

语料库和词汇知识库在不同层面共同构成了自然语言处理各种方法赖以实现的基础，有时甚至是建立或改进一个自然语言处理系统的关键。因此，世界各国对语料库和语言知识库开发都投入了极大的关注。自1979年以来，中国开始进行机读语料库建设，并先后建成汉语现代文学作品语料库（1979年，武汉大学，527万字）、现代汉语语料库（1983年，北京航空航天大学，2000万字）、中学语文教材语料库（1983年，北京师范大学，106万字）和现代汉语词频统计语料库（1983年，北京语言学院，182万字）[15]。

1991年，中国国家语言文字工作委员会开始建立国家级大型汉语语料库，以推进汉语的词法、句法、语义和语用研究，原计划规模为7000万汉字。北京大学计算语言学研究所从1992年开始现代汉语语料库的多级加工，在语料库建设方面成绩卓著，先后建成2600万字的1998年《人民日报》标注语料库、2000万汉字和1000多万英语单词的篇章级英汉对照双语语料库、8000万字篇章级信息科学与技术领域的语料库等。清华大学于1998年建立了1亿汉字的语料库，着重研究汉语分词中的歧义切分问题。另外，山西大学、哈尔滨工业大学、北京语言文化大学、东北大学、中科院自动化研究所、台湾中央研究院和香港城市大学等相当一批大学和研究机构都对汉语语料库的建设做出了重要贡献。

此外，我国少数民族语言资源的开发也得到了长足的进展，新疆大学、新疆师范大学、内蒙古大学、中国社科院民族研究所和西北民族大学等单位还对我国少数民族语言资源库的建设做了大量工作。

在语言知识库建设方面，《同义词词林》[24]、“知网”（HowNet）（http://www.keenage.com/html/c_index.html，注：原文标注此处发生错位）[4]、概念层次网络（Hierarchical Network of Concepts, HNC）[20]等一批有影响的知识库相继建成，并在自然语言处理研究中发挥了积极的作用。

在上述诸多工作中，北京大学计算语言学研究所开发的基于《人民日报》语料标注的现代汉语分词和词性标注语料库、董振东等开发的“知网”是比较典型的语言资源成果，而中文语言资源联盟（Chinese Language Data Consortium, Chinese LDC，www.chineseldc.org）则是为推动我国的语言资源共享建立的第一个联盟性的学术组织。

北京大学语料库

北京大学计算语言学研究所从1992年起开始现代汉语语料库的多级加工，历时10余载，已经取得了重要成果。自1999年4月至2002年4月，历时三年完成的1998年全年《人民日报》的标注语料库包含2600多万汉字，全部语料均已完成词语切分和词性标注等基本加工。

根据《北京大学现代汉语语料库基本加工规范》[28]，汉语词性标注包括26个基本词类代码，74个扩充代码。标记集中共有106个代码。其中，26个基本词类包括：名词(n)、时间词(t)、处所词(s)、方位词(f)、数词(m)、量词(q)、区别词(b)、代词(r)、动词(v)、形容词(a)、状态词(z)、副词(d)、介词(p)、连词(c)、助词(u)、语气词(y)、叹词(e)、拟声词(o)、成语(i)、习用语(l)、简称(j)、前接成分(h)、后接成分(k)、语素(g)、非语素字(x)、标点符号(w)。全部语料除了进行词语切分、词性标注以外，还对多音字（词）进行了汉语拼音标注。下面是一段标注的语料示例：

咱们/rr 中国/ns 这么/rz 大{da4}/a 的{de5}/ud 一个/mq 多/a 民族/n 的{de5}/ud 国家/n 如果/c 不/df 团结/a ，/wd 就/d 不/df 可能/vu 发展/v 经济/n ，/wd 人民/n 生活/n 水平/n 也/d 就/d 不/df 可能/vu 得到/v 改善/vn 和{he2}/c 提高/vn 。/wj

北大分词语料库已经成为中文信息处理领域广泛使用的语言资源库。另外，北京大学计算语言学研究所在现代汉语语法信息词典、语义词典开发方面也获得显著成绩。

知网

知网是著名机器翻译专家董振东和董强经过十多年的艰苦努力创建的语言知识库，是一个以汉语和英语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。

1988年前后，董振东曾在他的几篇文章中提出以下观点[13]：

1. 自然语言处理系统最终需要强大的知识库支持。

2. 知识，特别是计算机可处理的知识，是一个系统，是一个包含着各种概念与概念之间的关系，以及概念的属性与属性之间的关系的系统。

3. 建立知识库应首先建立一种可以被称为知识系统的常识性知识库，以通用的概念为描述对象，建立并描述这些概念之间的关系。

4. 知识博大精深，掌握在千百万人的手中，靠几个、几十个人是不可能建立真正意义上的全面的知识库的。应该先由知识工程师来设计知识库的框架，并建立常识性知识库原型。在此基础上再向专业性知识库延伸和发展。专业性知识库或称百科性知识库，主要靠专业人员来完成。

知网作为一个知识系统，是一个名副其实的网络，它要着力反映概念的共性和个性。在知网中，“义原”是一个很重要的概念。它是指最基本的、不易于再分割的意义的最小单位。知网体系的基本设想是所有的概念都可以分解成各种各样的义原，同时，存在一个有限的义原集合，其中的义原组合成一个无限的概念集合。董振东认为，中文中的字（包括单纯词）是有限的，但它可以被用来表达各种各样的单纯或复杂的概念，以及表达概念与概念之间、概念的属性与属性之间的关系。因此，知网从大约六千个汉字中提取出了这个有限的义原集合。以事件类为例，董振东在中文具有事件义原的汉字（单纯词）中曾提取出3200个义原，3200个事件义原在初步合并后大约可以得到1700个，然后进一步加以归类，便得到大约700多个义原。请注意，到现在为止完全不涉及多音节的词语。最后董振东用这700多个义原作为标注集去标注多音节的词，当发现这700多个义原不符合或不满足要求时，便进行合理的调整或适当扩充。这样就形成了今天的800多个事件义原的标注集以及由它们标注的中文的事件概念。

知网的规模主要取决于双语知识词典数据文件的大小。由于它是在线的，修改和增删都很方便，因此，它的规模是动态的。

综上所述，知网是一个具有丰富内容和严密逻辑的语言知识系统，它作为自然语言处理技术，尤其是中文信息处理技术研究和系统开发重要的基础资源，在实际应用中发挥着越来越重要的作用，可以广泛地应用于词汇语义相似性计算、词汇语义消歧、名词实体识别和文本分类等许多方面。

中文语言资源联盟

在国家重点基础研究发展规划（973）项目“图像、语音、自然语言理解与知识挖掘”（资助号：G19980305）设立的特别专项“中文语料库建设”的支持下，由中国科学院自动化研究所、清华大学、教育部语言文字应用研究所和中国科学院计算技术研究所发起，于2003年成立了中文语言数据联盟（Chinese LDC）。该联盟挂靠在中国中文信息学会，其目标是建成具有国际水平的具有完整性、系统性、规范性和权威性的通用中文语言资源库以及中文信息处理的评测体制，为汉语语言信息处理的基础研究和应用开发提供支持，促进汉语语言信息处理技术的不断进步[29]。目前该联盟拥有会员单位70多个，各类语言资源80余种，包括8~10万词的《汉语通用词表》、25000~30000词的《汉语语法信息词典（高频词）》、500万字的《分词词性标注语料库》、100万字的《汉语语法树库》、20万句对的《中英双语语料库》等。其中30%数据资源对会员免费，从而在全世界范围内实现中文语音数据资源的共享。自2006年Chinese LDC运营以来，平均每天都有数十人次的网站访问和电话咨询。到目前为止，该组织已共享资源200多套，授权评测使用的单位40多个。包括美国、加拿大、德国、日本、澳大利亚等国内外若干著名科研机构和公司已经通过该平台取得了中文信息处理科研工作所需的基础资源，使得科研工作得以快速展开。

理论方法研究

黄昌宁等认为：在世界范围内，回顾自然语言处理技术半个多世纪的发展历程，这一领域的研究取得了两点重要认识，即：（1）对于句法分析，基于单一标记的短语结构规则是不充分的；（2）短语结构规则在真实文本中的分布呈现严重的扭曲。换言之，有限数目的短语结构规则不能覆盖大规模真实语料中的语法现象，这与原先的预期大相径庭。自然语言处理技术的发展在很大程度上受到这两个事实的影响。从这个意义上说，本领域中称得上里程碑式的成果有三个：（1）“复杂特征集”和“合一语法（unification grammar）”的提出；（2）语言学研究中词汇主义的建立；（3）语料库方法和统计语言模型的广泛运用。大规模语言知识的开发和自动获取成为目前自然语言处理技术的瓶颈问题。因此，语料库建设和统计学理论成为该领域中研究的关键课题。

在中文语言技术的理论研究中，几代中国学者付出了艰苦的努力。

刘涌泉、刘倬等老一代机器翻译专家于1958年提出的“中介成分理论”曾在早期的中国机器翻译研究中发挥了不可替代的作用。

20世纪70年代末期，冯志伟率先开展了对汉字信息熵的研究，经过几年的语料收集和手工统计，在当时艰苦的条件下测定了汉字的信息熵为9.65比特（bit）。1984年他在《文字改革》上发表短文，通俗地介绍了自己的研究结果。这与80年代末期刘源等通过计算机对大规模语料统计得到了汉语信息熵为9.71比特的结论比较接近。这项工作对于汉字的编码研究奠定了理论基础。

1983年前后，冯志伟在研究机器翻译的同时发现汉语的很多语言现象难以用乔姆斯基(N. Chonmsky)的语法理论处理（包括句法结构和形态分析等问题）。当时他率先提出了句子分析的多叉、多标记思想和用于标记处理的集合论方法[16]，并将其用于汉语句法分析和机器翻译系统开发。这一思想与马丁•凯（Martin Kay）提出的“复杂特征集”概念和合一语法几乎在同一时期，并且基本思想非常一致。20世纪90年代初期陈肇雄、高庆狮提出的SC文法体系[12]从某种意义上说是对复杂特征集理论和合一文法的进一步拓展。

刘倬在机器翻译研究中提出的建立词专家系统的思想可以说是中国最早期的词汇主义理念。俞士汶领导开发的现代汉语语法信息词典是词汇主义思想的典型应用。而董振东在知网中提出的概念关联及概念—属性表示理论则是对词汇主义思想的进一步发展和推广。

黄曾阳提出的概念层次网络理论和陆汝占提出的概念、语义计算及内涵逻辑表示方法，都是汉语语言知识表示理论研究的代表性成果。

另外，值得一提的是，林杏光等语言学家在依存句法理论研究、格语法和汉语动词的配价等问题研究中，结合汉语自身的特点和规律，提出了一系列新的思路和方法，并建立了基于配价的汉语语义词典。这些基础性理论成果为现代汉语的语言学研究和信息处理奠定了良好的基础。

自20世纪90年代统计方法成为自然语言处理的主流技术以来，我国学者在如何结合汉语特点，将统计方法用于中文信息处理方面进行了大胆探索，并取得了长足进步。其中，汉语自动分词方法的改进和命名实体识别技术的提高具有一定的代表性。另外，在基于统计方法的机器翻译研究中，刘洋等提出了一种基于“树到串对齐模板”（tree-to-string alignment template, TAT）的翻译模型[21]。根据该模型，一个源语言句子的翻译过程为：首先应用句法分析器获得源语言句子的句法树，然后采用树到串对齐模板将该句法树转换成目标语言句子。该模型的最大优势在于可以自动获取树到串对齐模板，从而捕捉语言学驱动的（linguistically motivated）局部（词）重排序和全局（短语、子句）重排序，而且该模型的训练复杂度要远远低于树到树的翻译模型。

在中国语言技术发展的50多年历程中，虽然我国科研人员做了大量的研究和探索工作，但大陆学者在这一领域提出的被世界公认的创新性理论方法并不多见。

应用技术开发

相对于理论研究成果而言，我国的自然语言处理应用技术开发和产业化发展的进程可谓硕果累累。如果说王选院士研制成功的激光照排技术和倪光南院士研制的汉字存储、显示、打印和字库等软硬件技术更多地属于计算机应用领域，中国科学院自动化研究所研究开发的汉王文字识别技术更多地属于模式识别领域，那么，唐亚伟教授研究开发的速记机和华建集团开发的机器翻译系统等一批实用技术，则充分体现了中国语言技术的成功应用。

唐亚伟教授是我国老一辈速记专家，他从20世纪50年代开始致力于机械速记研究，发表的《打字速记法》成为我国机械速记奠基之作。1993年唐亚伟成功发明了亚伟中文速录机，这标志着我国速记技术发展历史跨越机械阶段，直接进入电脑速记阶段，突破了“速记电脑化”和“实时记录语言”两大国际难题。亚伟中文速录机的广泛应用催生出了全新的行业和速记师职业，使速记这一古老技能在社会各领域得到普遍应用。在短短几年时间里，我国速录从业人员已经从零增加到几万人，投入产值达亿元人民币以上。全国法院、各大新闻媒体、国家相关职能部门会议记录、学术团体论坛交流以及企事业内部会议记录都使用亚伟中文速录机进行文字记录，创造出了巨大的经济效益和社会效益。2005年，92岁高龄的唐亚伟教授获得我国中文信息处理领域的最高科学技术奖——钱伟长中文信息处理科学技术奖。

另外，在计算机汉字输入法研究方面，王晓龙等提出了基于最少分词方法的句子级音字转换方法[25]。这种方法改变了当时主要以字或固定词为单位的汉字拼音法输入模式，极大地方便了计算机普通用户的汉字录入，该技术曾因以可观的价格转让给微软公司，并在当时引起广泛的关注。

在机器翻译方面，如上所述，陈肇雄博士研制的智能型英汉机器翻译系统于1992年通过国家级鉴定，并成功地开发了世界上第一台袖珍英汉翻译机。使用权转让费用创下了当时国内软件技术转让费的最高纪录。1993年，“智能型英汉机器翻译系统IMT/EC863”荣获中国科学院科技进步一等奖。1995年该系统荣获国家科技进步一等奖。基于该翻译技术，陈肇雄创建了华建集团公司(http://www.hjtek.com/)和中国科学院计算机语言信息工程研究中心。华建集团自成立以来，在计算机语言信息处理、行业应用系统、网络信息集成处理集成系统、嵌入式应用软件等方面形成了自身的业务特色，成功地开发了50多项具有自主知识产权的高科技新产品，并通过与世界著名公司的合作，占据了同类产品国际市场的主导地位。

随着国际互联网技术的迅速发展和普及，国内一批面向计算机网络的信息搜索系统脱颖而出。TRS(http://www.trs.com.cn/)、百度(http://www.baidu.com.cn/)和中搜(http://www.zhongsou.com/)等一批优秀企业成为当前信息行业耀眼的明星。

中国语言技术现状

要阐述中国语言技术的研究现状不是一件容易的事情，因为这一领域涉及太多的分支，而且各个分支都有一定的相对独立性，起点和发展速度也不一样。但是，如果我们不考虑具体的技术细节，从自然语言处理研究的总体状况来看，可以简单地用以下三点来粗略地反映目前中国语言技术所处的状况：

1. 已开发完成一批颇具影响的语言资源库，部分技术已达到或基本达到实用化效果，如，前面提到的北京大学分词语料库、语法信息词典、知网，以及汉字输入、编辑、排版等技术和机器翻译系统、搜索引擎等。

2. 许多新的研究方向不断出现。受实际应用的驱动，自然语言处理技术不断与新的相关技术相结合，用于研究和开发越来越多的实用技术。例如，网络内容管理、网络信息监控和有害信息过滤等。这些研究不仅与自然语言处理技术有关，而且涉及图像理解、情感计算和网络技术等多种相关技术。而语音自动翻译则是涉及语音识别、机器翻译、语音合成和通讯等多种技术的综合集成技术。语音自动文摘、语音检索和基于图像内容及文字说明的图像理解技术研究等，都是集自然语言处理技术和语音技术、图像技术等于一体的综合应用技术。对于这些新的方向的研究才刚刚开始或者仅处于非常初步的探索阶段，离科学问题的最终解决和达到实用化目标，还有遥远的距离。

3. 许多问题尚未得到解决。一方面，在基础资源库开发方面，缺乏基本的国家规范和标准，语料库和知识库开发依然是“百花齐放”，许多成果难以共享和重复利用，至今没有建立起权威的国家语料库和知识库。另一方面，在理论模型和方法研究方面仍处于探索阶段，尽管许多理论模型在自然语言处理研究中发挥着重要作用，并且很多方法已经得到实际应用，如上下无关文法、HMM(Hidden Markov Model，隐马尔可夫模型)、噪声信道模型等。但是，许多重要的问题仍未得到彻底、有效的解决，如语义的形式化与计算问题、句法分析问题、指代歧义消解问题、汉语自动分词中的未登录词识别问题等。综观整个自然语言处理领域，尚未建立起一套完整的、系统的理论框架体系，许多理论研究甚至处于盲目的摸索阶段，如尝试一些新的机器学习方法或未曾使用的数学模型，这些尝试和实验带有很强的主观性和盲目性。在技术实现上，许多改进往往仅限于对一些边角问题的修修补补，或者只是针对特定条件下一些具体问题的处理，未能从根本上建立一套广泛适用的、鲁棒的处理策略。相对而言，我国学者主要是跟踪国外技术潮流，缺少原创性理论、模型或算法。

总之，面对自然语言问题的复杂性和多变性，现有的理论模型和方法还远远不够，有待于进一步改进和完善，并期待着新的更有效的理论模型和方法出现。

研究计划和课题

近几年来，中国政府投入了大量的经费来推动语言技术的研究和开发工作，从国家重大基础研究发展规划（973）、国家自然科学基金，到国家高技术计划（863）等，无不设立项目或课题支持这一领域的研究。以下简要介绍其中的几个项目。

国家973项目

1999年至2003年，国家科技部首批立项的重大基础研究发展规划项目“图像、语音、自然语言理解与知识挖掘”将自然语言理解问题列为研究内容。该项目的牵头单位为中国科学院自动化研究所，首席科学家为马颂德研究员。中国科学院声学研究所、清华大学、东北大学、社会科学院语言研究所等一批大学和研究所参与了该项目的研究。

在这一项目的支持下，自然语言处理的一项突出成果是建立了中文语言数据联盟（Chinese LDC）。国内从事自然语言处理研究的专家针对中文信息处理在理论方法、语义体系、语料库建设、机器学习和语言处理、以及应用技术等方面问题进行了深入研究和讨论，最终出版了《中文信息处理若干重要问题》一书（科学出版社，2003）。

2004年国家科技部立项的国家重点基础研究发展计划项目“数字内容理解的理论与方法”(http://dcu973.ia.ac.cn/)再次将语言信息处理作为重要研究内容，探索“注意选择”与“特征捆绑”的机理并研究建立大规模的各种知识库、语料库与数据库，以期为语义计算奠定基础。在信息内容理解的计算模型与方法层次上，研究信息内容理解的基础问题，即在给定需求条件下的语义计算。在信息内容理解的关键技术与应用层次上，以上述两个层次的研究成果为基础，研究面向国家重大需求的基础应用技术（如有害信息的过滤和多媒体信息检索）并建立计算模型与方法的验证环境。

国家自然科学基金项目

国家自然科学基金委员会长期以来支持自然语言处理研究，10多年来，先后设立了若干重点项目、面上项目和青年基金项目。研究主题涉及汉语和藏、蒙、维等少数民族语言的语料库建设、语义分析等基础问题，以及输入法、机器翻译、自动文摘等应用技术的各个方面，在自然语言的词汇、句子、篇章和语义等各个侧面都进行了深入研究和探索[26]。

1999年陈肇雄获得国家杰出青年基金的支持进行机器翻译研究。

1999年中国科学院自动化研究所与声学所、计算机语言信息工程研究中心联合承担了国家自然科学基金重点项目“汉语话语翻译关键技术的研究”。在这一项目的资助下，课题组在话语翻译关键技术的研究、系统集成及实现、语料资源库建设，以及国际合作等方面，都取得了重大进展，取得了一批重要的在学术上有创新意义的研究成果，包括：建立了具有国际领先水平的超大规模多语口语对照语料库；在口语翻译理论和系统集成实现方面取得了多项重要创新，提出并实现了若干面向自然口语机器翻译的新方法及新策略；建立了多个有特色的实验系统和多语种口语翻译实验平台。

2007年，中国科学院计算技术研究所与自动化研究所、哈尔滨工业大学联合申请到国家自然科学基金重点项目“融合语言知识与统计模型的机器翻译方法研究”，试图建立一种有效的机器翻译方法，将传统的规则方法和目前流行的统计方法有效地结合起来，从而提高机器翻译的质量。

国家863项目

近几年来国家863计划投入了大量资金用于语言技术研究，其中，2002年设立的重大项目“奥运多语言智能信息服务系统关键技术及示范系统研究”具有较大的影响。该项目由首都信息发展股份有限公司作为牵头单位，中国科学院自动化研究所、北京邮电大学、清华大学、厦门大学、南京大学、中国计算机软件网络技术股份有限公司、安徽中国科技大学讯飞信息科技有限公司、中国科学院声学研究所、计算机语言信息工程研究中心、哈尔滨工业大学等一大批科研单位，大学和企业参与了该项目的研究。该项目的主要目标是突出以人为本的信息服务，通过网络手段对各国记者、观众等提供综合、全面、多语种、可定制的信息服务，实现任何人、任何时间、在任何场所通过多种手段获取奥运相关信息的目标，从而增进人们的互相理解和友谊，特别是促进中国人民和世界各国人民之间的友谊，不仅使奥运会能够更顺利地组织和进行，而且可以通过“科技奥运”更好地实现“人文奥运”的目标。

经过几年的研究探索，该项目在国家863计划的后续支持下，研究目标不断得到凝练和集中，部分成果（如多语言网络信息翻译、基于信息亭的多语言信息查询等）有望在2008年奥运会上得到实际应用。

结束语

综上所述，我国的语言技术研究在取得丰硕成果的同时也面临着许多新的问题。我们在评价任何一门学科和技术的时候，既不应该因为它所取得的成绩而忽略了问题的存在，也不应该因为问题的存在而全盘否定这门学科的发展。对于评价自然语言处理这门学科更是如此。实际上在自然语言处理中存在的很多问题，连具有高度智慧的人自己都不能达到非常准确、满意的程度，甚至无法清楚地知道人脑处理这些问题的具体过程。因此目前对自然语言处理的一些具体技术提出过高要求显然是不合适的，给予太多的批评和指责也是不公正的。比如说，在现阶段过高地要求机器翻译系统的译文质量和信息抽取系统的准确率等，都是不现实的。即便如此，在实际应用中，这些技术已经在一定程度上为我们提供了很大的帮助和便利。当然，我们并不是不允许人们对某一项技术提出更高的要求和希望，重要的是要先建立有效的理论模型和实现方法。这也是自然语言处理这门学科所面临的挑战和机遇。

参考文献

[1] Berger, Adam L., Brown P F, Della Pietra S A, Della Pietra V J, Gillett J R, Lafferty J D,

　　Mercer R L, Printz　H, Ureš L. 1994. The Candide System for Machine Translation.

　　In Proceedings of the ARPA Conference on Human Language Technology (HTL).

　　Pages 157-162

[2] Brown, Peter F., Della Pietra S A, Della Pietra V J, Mercer R L. 1993. The Mathematics of Statistical

Machine Translation: Parameter Estimation. Computational Linguistics. 19(2):263-309

[3] Brown, Peter F., Cocke J, Della Pietra S A, Della Pietra V J, Jelinek F, Lafferty J D,

　　Mercer R L, Roossin P S. 1990. A Statistical Approach to Machine Translation.

　　Computational Linguistics. 16(2):79-85

[4] Dong, Zhendong, Dong Qiang. 2006. HowNet and the Computation of Meaning.

　　Singapore, World Scientific Publishing Company

[5] Gao Qingshi, Gao Xiaoyu, Hu Yue. 2003. Semantic Language and Multi-Language

　　MT Approach based on SL,”Journal of Computer Science & Technology. 18(6): 848-852

[6] Hutchins John. 2001. Machine translation over fifty years. Histoire, Epistémologie,

　　Langage, Tome XXII, fasc. Vol. 23 (1), 2001: Le traitement automatique des

　　 langues [ed. Jacqueline Léon], 7-31

[7] Liu, Yang, Liu Qun, Lin Shouxun. 2006. Tree-to-String Alignment Template for Statistical

　　Machine Translation. In Proceedings of the 21st International Conference on

　　Computational Linguistics and the 44th Annual Meeting of the Association for

　　 Computational Linguistics. Sydney, Australia, July 2006. Pages 609-616

[8] Manaris, Bill. 1998. Natural Language Processing: A Human-Computer Interaction

　　 Perspective. Advances in Computers, 47: 2-68

[9] US NSF Report on Multilingual Information Management: Current Levels and Future

　　Abilities, Chapter 4: Machine Translation, April, 1999

　　(http://www.cs.cmu.edu/~ref/mlim/index.html)

[10] Zong, Chengqing, Mark Seligman. 2005. Toward Practical Spoken Language

　　Translation. Machine Translation, 19(2): 113-137

[11] 陈肇雄，高庆狮. 1989. 智能化英汉翻译系统IMT/EC，中国科学A辑，(2): 186-194

[12] 陈肇雄，高庆狮. 1992. SC文法功能体系，计算机学报，(11): 801 -808

[13] 董振东，董强. 1999. 知网. 见网页：http://www.keenage.com

[14] 冯志伟，2004，机器翻译研究，北京：中国对外翻译出版公司

[15] 冯志伟. 2001. 中国语料库的历史与现状-语料库研究回顾与问题. In Proceedings of the International

Conference on Chinese Computing (ICCC). Nov. 27-29, 2001. Pages 1-15

[16] 冯志伟，1983，汉语语句的多叉多标记树形图分析法，人工智能学报，1983年第2期

[17] 高庆狮，陈肇雄等. 1989. 类人机器翻译原理. 计算机研究与发展, 26(2): 1-8

[18] 黄昌宁，赵海. 2007. 中文分词十年回顾. 中文信息学报，21(3): 8-19

[19] 黄昌宁，张小凤. 2002. 自然语言处理技术的三个里程碑. 外语教学与研究. 2002年第3期，第180～187页

[20] 黄曾阳. 1997. HNC理论概要.中文信息学报. 1997(4)

[21] 刘洋. 2007. 树到串统计翻译模型研究[博士学位论文].中国科学院计算机技术研究所

[22] 刘源，谭强，沈旭昆. 1994. 信息处理用现代汉语分词规范及自动分词方法.北京：清华大学出版社、广西科学技术出版社

[23] 陆汝占. 2003. 概念、语义计算及内涵逻辑. 见：中文信息处理若干重要问题.北京：科学出版社.第90-95页

[24] 梅家驹，竺一鸣，高蕴琦，殷鸿翔. 1996. 同义词词林. 上海：上海辞书出版社

[25] 王晓龙，1993，拼音语句汉字输入系统InSun，中文信息学报，7(2): 45-54

[26] 徐琳，赵铁军，2005，国家自然科学基金在自然语言处理领域近年来资助的已结题项目综述，

　　软件学报，16(10)：1853?1858

[27] 姚天顺，朱靖波等. 2002. 自然语言理解ā一种让机器懂得人类语言的研究（第二版）. 北京：清华大学出版社

[28] 俞士汶，段慧明，朱学锋等.2002. 北京大学现代汉语语料库基本加工规范.中文信息学报. 16(5/6):

49-64/ 58-65

[29] 赵军，徐波，孙茂松，靳光瑾. 2003. 中文语言资源联盟的建设和发展. 见：中文信息处理若干

　　重要问题. 北京：科学出版社. 第218-225页

作者简介

宗成庆

中科院自动化所模式识别国家重点实验室副主任，研究员。主要从事机器翻译和自然语言处理相关技术的研究。

高庆狮

中国科学院院士。从事大型巨型计算机系统结构、并行算法、人类智能及其模拟和应用、自然语言处理等计算机科学、工程与应用方面的研究。

相关博文：

中文信息处理奇葩绽放

第一届全国HowNet研讨会印象

转载本文请联系原作者获取授权，同时请注明本文来自章成志科学网博客。
链接地址：https://wap.sciencenet.cn/blog-36782-38545.html

上一篇：生物学相关领域本体（持续更新中...)
下一篇：机器学习与人工智能学习资源导引[zz]

收藏 IP: .*| 热度|

当前推荐数：0

发表评论评论 (2 个评论)

数据加载中...

返回顶部

博文发布时间已经超过87600小时，评论已关闭。

章成志

扫一扫，分享此博文

章成志　分享 http://blog.sciencenet.cn/u/timy 宠辱不惊闲看庭前花开花落，去留无意漫观天外云展云舒

博文

中国语言技术进展[ZZ]

引言

中国语言技术的发展

成果回顾

语言资源开发与知识库建设

北京大学语料库

知网

中文语言资源联盟

理论方法研究

应用技术开发

中国语言技术现状

研究计划和课题

国家973项目

国家自然科学基金项目

国家863项目

结束语

当前推荐数：0

发表评论评论 (2 个评论)

章成志

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

章成志 分享 http://blog.sciencenet.cn/u/timy 宠辱不惊闲看庭前花开花落，去留无意漫观天外云展云舒

博文

中国语言技术进展[ZZ]

引言

中国语言技术的发展

成果回顾

语言资源开发与知识库建设

北京大学语料库

知网

中文语言资源联盟

理论方法研究

应用技术开发

中国语言技术现状

研究计划和课题

国家973项目

国家自然科学基金项目

国家863项目

结束语

当前推荐数：0

发表评论 评论 (2 个评论)

章成志

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

章成志　分享 http://blog.sciencenet.cn/u/timy 宠辱不惊闲看庭前花开花落，去留无意漫观天外云展云舒

发表评论评论 (2 个评论)