李维
《知识图谱的先行:从 Julian Hill 说起 》 精选
2015-10-24 01:36
阅读:6868
标签:信息抽取, 知识图谱, relationship, extraction, 关系抽取

【立委按】我15年前领导的这个研究就是如今红透半边天的“知识图谱”的先行。知识图谱这个术语实际上是搜索产业借用了研究界的实体关系和实体概览(Entity Relationships and Entity Profile)概念炒热的。
             from 2007年博文回忆:《朝华午拾:信息抽取笔记 — Julian Hill Entity Profile 的形成

在我的科研生涯中,有些插曲很有意思。关于 Julian Hill 的故事就是其一,这段故事成为我们研究组推介所谓实体概览(Entity Profile)的概念和功能的经典例证。

那是七八年前,我涉入信息抽取领域不到两年,同时主持两个信息抽取的研究项目,整天就琢磨信息抽取的体系结构和概念系统。当时,研究界为信息抽取定义了几个子任务,初步构成了一个信息表达单位(information object)的概念体系:实体标识(Named Entity tagging,NE),旨在标识人名地名机构名;模板成员(Template Element, TE),事件模板的成员,由实体名词加上其特征(descriptors)构成,比如,实体名:Microssoft, 类别:公司,特征:software giant;模板关系 (Template Relation, TR) 反映的是实体之间的关系,比如雇用关系,机构与其所在地的关系 ;实体串联(Coreference,CO),用来把所指相同的实体名词如专名Microsoft和代指词如this company或it等串联起来;事件模板 (Scenario Template, ST) 定义的是特定领域事件的有关信息,比如高层管理人员变动(management succession)事件,就要求自动抽取融合有关信息,填写下述模板内容:涉及公司,上台人物,下台人物,时间,原因,等 。

在上述信息抽取单位的概念体系里面,我隐隐感觉缺了点什么:NE 和 TR 都是表述式的抽取(mention-level extraction),即抽取的是一个个句子范围内的语言片断,而 ST 要求的是概览式抽取(profile-level extraction),即抽取的语言片断需要经过一个信息融合(information fusion)的过程,然后填入事件模板,因为一个模板的信息来源常常跨句,需要借助实体串联CO把这些信息融合起来,比如上台人物在前一句表述,而下台人物却在后来的句子提到:Abc Inc., an industry leader in speech processing, is reported today to appoint John Smith as its new CEO. Mr. Smith was MBA from Harvard, with 14 years of executive experiences in the IT industry. He will replace Peter Lee who was founder of the company but was recently hospitalized for his heart attack。融合过的模板示意如下:

事件:高管人员变动
涉及公司: [Abc Inc., an industry leader in speech processing]
职务:CEO
上台人物: [John Smith, MBA from Hardvard]
下台人物: [Peter Lee, founder of the company]
时间: today
原因: was recently hospitalized for his heart attack

尽管实体标识和实体关系,甚至事件本身,都有跟实体相关的信息,但实体本身在抽取体系中却没有一个相应的概览式的模板表达。有意思的是,在填写事件模板的时候,现体系要求模板成员TE来填写参与事件的各个角色。可是,TE 是个信息贫乏的单位,只包括实体的特征信息,如 [Abc Inc., an industry leader in speech processing],实体关系信息和事件参与信息不在其涵括范围之内。为什么实体的表达单位不能也独立成为一个概览式的信息丰富的模板呢?显然,标准的制定者对事件比对实体重视,一切围绕着填写复杂的事件模板为中心。

我想,一个个自动标识出来的实体名词和抽取出来的一个个实体关系和事件,就像一颗颗散珠,只有联成串,才好作为物质世界的实体的信息表达单位。我慢慢感觉到这个未及命名的概念的重要性,就如个人履历对于人力资源经理的重要性一样。这样自动生成的履历可能为信息抽取的应用打开一个突破口,因为实体信息的融合,较之研究界定义并强调的事件融合,更加好把握(more tractable),而实体的重要性在很多应用领域中不言自明,例如,在反恐斗争中,进入黑名单的恐怖主义嫌疑分子就形成一个 watch-list, 任何关于他们的信息都是可能的情报来源。

沿着这一思路,信息应该有两个中心,实体中心(entity-centric)和事件中心(event-centric),从而有两条信息抽取和融合的道路,导致两种概览式的信息单位,在事件概览以外,实体概览本身有其独特的使用价值。我们关心物质世界,不仅对发生的事件产生兴趣,很多时候,我们对其中人物或机构的兴趣也很浓厚。我们观察世界,有时是通过事件去分析前因后果,寻求对策,有时我们却是从实体着手,跟踪实体之间的关系及其对事件的影响。

我把这个想法跟老板谈,她很欣赏,非常赞同我们应该把实体融合当作突破点,因为事件融合已经在业界受到很多批评,难度太大,最好的系统的精确度总是在50%-60%徘徊(一般认为精确度至少70%-80%才有应用前景),而且由于事件的领域倾向,系统的移植性太差,总之,ST这样的事件概览任务在当年是不现实的。

我的设计思想最终表达为下列信息单位的概念表达体系:

至此,概念算是基本理清了。我们起初给这个信息单位命名为”关系中的实体” (Correlated Entity, CE),最终定名为实体概览(Entity Profile, EP)。下一步的任务是做可行性研究,设计蓝图,最终领导我的研究组研制出原型系统来。在设计蓝图时,我遇到的第一个问题是缺乏有力的例证,我知道,一个好的例证胜过许多抽象论证。但是实体概览这个概念的力量取决于信息的丰富,而当时的研究还是在单篇文章上的初步验证,跨文本的抽取融合的研究尚未开展。我们的数据对象是新闻报道,我发现新闻报道大多短小,每篇报道提到特定的人或者机构时往往一笔带过,没有多少事实可以抽取融合成像样的实体概览以及实体之间的相互联系,无法显示其力量。

我一篇一篇新闻浏览下去,希望发现奇迹。功夫不负苦心人,我终于在《纽约时报》存档里发现了一篇卟告似的新闻,报道尼龙的发明者 Julian Hill 病逝的消息。因为是报道名人去世,所以通篇回顾其生平事迹,有充分的材料可以抽取,构成履历一样的概览。我如获至宝。这篇报道节选如下:

Julian Hill, a research chemist whose accidental discovery of a tough, taffylike compound revolutionized everyday life after it proved its worth in warfare and courtship, died on Sunday in Hockessin, Del. He was 91.
Hill died at the Cokesbury Village retirement community, where he had lived in recent years with his wife of 62 years, Polly.
………… Julian Werner Hill was born in St. Louis, graduated from Washington University there in 1924 and earned a doctorate in organic chemistry from the Massachusetts Institute of Technology in 1928. His wife recalled on Wednesday that his doctoral studies were delayed a year because he was stricken with scarlet fever.
Hill played the violin and was an accomplished squash player and figure-skater until his early 40s, when an attack of polio weakened one leg, his wife said.
Before his retirement from Du Pont in 1964, Hill supervised the company’s program of aid to universities for research in physics and chemistry.
…………

我于是纸上谈兵,一步步以此为例设计实体信息抽取和融合的具体过程,设想其应用。信息抽取的步骤示例如下:

(1) 实体标识

[Julian Hill]<人名> , a research chemist whose accidental discovery of a tough , taffylike compound revolutionized everyday life after it proved its worth in warfare and courtship , died on [Sunday]<日期> in [Hockessin , Del]<城镇名> . He was 91.

[Hill]<人名> died at the [Cokesbury Village]<城镇名> retirement community , where he had lived in recent years with his wife of [62 years]<时段> , [Polly]<人名> .
……… [Julian Werner Hill]<人名> was born in [St. Louis]<城镇名> , graduated from [Washington University]<学校名> there in [1924]<年代> and earned a doctorate in organic chemistry from the [Massachusetts Institute of Technology]<学校名> in [1928]<年代> .
………

(2) 关系抽取:

职位: research chemist ← Julian Hill
年龄: 91 ← Hill
出生地: St. Louis ← Julian Werner Hill
工作单位: Du Pont Co. ← Julian Werner
毕业学校: Washington University ← Julian
毕业学校: Massachusetts Institute of Technology ← Julian
配偶: Polly ← Julian Hill
特长: an accomplished squash player and figure-skater ← Julian

(3) 事件抽取:

<死亡事件> 何人:Julian Werner Hill 何时:Sunday 何地:Hockessin, Del
<发明事件> 何人:Julian Hill 何物:nylon 何时:1930s
<毕业事件> 学校:Washington University 何时: 1924 何地:St. Louis
………

(4) 实体概览:

【Julian Hill 概览】

姓名:Julian Werner Hill
年龄:91
性别:MALE
职务:research chemist
工作单位:[DuPont Co.]
教育背景:[Washington University]; [Massachusetts Institute of Technology]
配偶:[Polly]
儿女:[Louisa Spottswood]; [Joseph] ; [Jefferson]
特长:an accomplished squash player and figure-skater
相关事件: <死亡事件> ;<发明事件>;<毕业事件> ;………

当年设计出来的实体概览的应用图示如下。

追踪跑兔式浏览的应用(chase-the-rabbit browsing):

在浏览文本时,鼠标指向任何实体名词,实体概览即可显现


在相关实体概览中浏览轻而易举,只需点击目标实体的链接即可

信息的时间图示化应用 (Information visualization)

信息的地域图示化应用 (Information visualization)

这个方向的研究进展顺利,我于是有了资本去游说政府项目的投资人。我们的政府项目经理是政府实验室的信息抽取组组长,精明强干,善于宏观把握项目的大方向。她跟我关系融洽,八年来合作非常愉快。每年由上级单位派专家组成的检查团检查实验室的工作,都是她最紧张的时刻。我总是全力协助她展示我们研究的亮点,作为她资助的项目的成绩汇报。她在制定科研项目的远景规划和资助重点的时候,经常跟我磋商,她的好几个选题就是我提供的描述。她跟我谈她的苦恼:她们从信息抽取研究一开始就资助这一领域的一批项目,如今已经砸进去太多钱了,可是实际应用方面却进展甚微。再这样下去,她对自己的上司也不好交待。她急需找到一个突破口,以证实该领域不是纸上谈兵,而是可以解决实际问题的应用研究。我就趁此机会向她推销我的实体概览的理念和实践,说明实体概览正是她苦苦寻求的难度不大不小的具有应用价值的抽取对象,她后来称之为 intermediate IE, 区别于已经原则上解决了的 shallow IE 问题(如实体标识),又不象 deep IE 事件概览那样缺乏应用的可行性。后来,在看到我们做出的原型系统,她拥抱了这个概念,跟我说,there is no doubt that you guys earn the credit of pushing this significant area along.

在她的推动下,政府罗马实验室终于把跨文本实体概览 (Cross-document Entity Profile) 作为信息抽取的一个大项目公开招标,项目的描述大段摘录了我的研究报告中的说法。不幸的是,这个千万美元的大项目招标的标准中要求公司必须有 clearance,而我所在的公司有不少象我一样的外籍员工,不具备主竞标人的资格,但可以作为主竞标单位的 sub-contractor,分一杯羹。一时间,几个主竞标者纷纷慕名而来,希望跟我们结成exclusive 联盟,增强它们的竞标胜算。CEO 跟我们一商量,觉得不能把宝押在一家身上,坚持不签 exclusive 的联盟(跟我们长期合作的那家公司因此感觉不悦,但他们没有自己的抽取技术,有求于我,只好委曲求全),对各主竞标者一视同仁,同意中标后跟赢家合作,提供实体概览的抽取引擎,支持主竞标者开发实体概览的应用产品。结果,还是那家长期跟我们合作的公司中标了,他们的经理随即招兵买马,踌躇满志,仗着我们的后盾,准备大干一场。

回头看这段科研的心路历程,我的直觉和对应用前景的敏感还是不错的。如今,沿着实体概览思路开发出来的系统已经投入应用,可以预见类似的应用在不同的领域会越来越多,惠及越来越多的信息索取者。不出所料,首先成功运用此概念的系统是在人力资源领域,自动收集融合个人履历,见 http://www.zoominfo.com (顺便提一个插曲,ZoomInfo 刚开张的时候,就引起了我的注意。我首先搜索我自己 Wei Li, 发现我的履历在众多同名的人中居然排在首位,大概与我高级经理的职务有关。最近又查了一次,我的信息仍在,已经快沉底了,大概该系统这两年的搜集面越来越大,牛人太多,我是小巫见大巫了)。

在医学领域,有两个成功的应用。一个是依据PubMed文献,用文本挖掘的技术自动抽取研究人员的工作单位,合作者,联络方式,专长,研究专题等等信息,综合起来,提供搜寻专家和权威的情报服务(http://www.authoratory.com/index.htm)。这些都是公开信息,但除了业内资深人士可以对专家做出合适的评价外,普通人员要想比较专家的权威度,很容易迷失在文献的海洋里。这个系统把情报归类融合,使得专家的搜寻可以建立在丰富的情报数据之上,减少盲目性,是个很有意义的应用。

概览概念在医学领域的另一个成功的运用 MedStory(http://www.medstory.com/)。他们不再局限于窄义的实体,而是为医学领域的各个概念包括疾病、药品、治疗手段、专家等等信息,汇集链接起来,提供概览式的浏览,其用户界面简洁漂亮,让人印象深刻。他们的成功也得力于医学卫生领域概念体系的丰富性和完整性,有很现成的术语库可以利用。微软已经决定收购MedStory.

最近,一家跨国公司寻求合作,就提出了在他们的领域准备投巨资开发实体概览的系统,他们称做”实体360度全景式浏览”(360 view of an entity),高层主管对此应用的前景极为看好,有数据分析人员称之为 dream product。

很多有巨大应用价值的概念其实基于很简单的原理。譬如,作为Google搜索引擎的基石之一的超链分析,其基本原理就是把网页之间的链接看作论文的引用,引用率越高的网页流行度和权威性也越高,因此其搜索排名也应该越高。实体概览的概念也是如此,它不过是在自动信息单位的定义里面,模仿了实际生活中已经存在的个人履历和公司简介的结构。概念虽然简单,威力却很大。作为参与和推动这个概念的理论和实践的一员,笔者亲眼目睹这个概念这么快地被广泛接受和应用,深感欣慰和自豪。尼龙的发明人 Julian Hill 也因此成了我讲解此概念的经典案例。

2007年八月五日记


【补记】
关于前知识图谱时代的“知识图谱”研究,我的 SBIR 17个最后报告里面有非常详细的论述,大约10年前,准备根据这些报告写一本《信息抽取导论》,也联系好了出版商,不过还是一个叉打过去了,就没有真正成文发表。在工业界打工,坐冷板凳求著书立说的愿望似乎有点奢侈。趁着现如今知识图谱热,作为先行者,准备从历史档案里面找一些资料出来,发到博文上去,算是史海钩沉:

Pre-Knowledge-Graph Profile Extraction Research via SBIR (1) 2015-10-24
Pre-Knowledge-Graph Profile Extraction Research via SBIR (2) 2015-10-24
Early arguments for a hybrid model for NLP and IE 2015-10-25
SVO as General Events 2015-10-25



【相关】

【立委科普:信息抽取】

朝华午拾:在美国写基金申请的酸甜苦辣 - 科学网

 《朝华午拾:创业之路》

《泥沙龙笔记:搜索和知识图谱的话题》 2015-10-23

前知识图谱钩沉: 信息抽取引擎的架构


【置顶:立委科学网博客NLP博文一览(定期更新版)】

转载本文请联系原作者获取授权,同时请注明本文来自李维科学网博客。

链接地址:http://wap.sciencenet.cn/blog-362400-930505.html

收藏

分享到:

0
当前推荐数:15
推荐到博客首页
网友评论2 条评论
确定删除指定的回复吗?
确定删除本博文吗?