BlueGemini分享 http://blog.sciencenet.cn/u/BlueGemini

博文

评论《识别文本中的感情、判断和评定》

已有 7668 次阅读 2010-12-23 13:58 |个人分类:情感分析|系统分类:科研笔记| 细粒度分类, 词组合规则, 动词的情感影响

       该论文是老板发给我的,是东京大学的几个学者写的。但重要的是这篇论文发表在COLING会议上的,COLING大家晓得不,还是很牛的,SCI、EI收录就不说了。根据CCF推荐的人工智能领域的会议,COLING是属于仅次于ICJAI这样A类会议的B类。A类那几个太牛了,而且太大太全。应该说,COLING在自然语言理解领域,COLING是和ACL一个级别的,都是属于顶级会议。这篇论文是入选了最佳论文决赛名单的,但是会议是在中国开的,可能是由于某些中国特色的原因,最后的胜出者是清华大学投的一篇论文。不管是长他人志气,灭自己威风也好,还是怎么的,总之这篇论文还是值得我们去认真学习探讨。

        前面说了那么多,大家以为我可能对这篇论文推崇备至,其实大家错了。我对于这篇论文还是很有意见的,至少看了之后让我有些失望。文章总体的特点是没有一个公式,没有一个数学模型,没有一张图,有很多表,但是最多的是通篇的规则以&、->、()这些符号最多。另外,论文里面充斥的是定语、补语、动词、形容词这些让我头疼的术语,可晓得我英语向来很差,语文也半斤八两,读这篇论文对我简直有些折磨性质。而且,让我对未来有些迷惘,做自然语言理解的难道真的要天天研究词搭配、语法和语义吗,oh my ladygaga!

        废话不多说,这篇论文还是有价值,相信专家们的眼光(其实我更相信群众的眼光),下面就具体介绍一下这篇论文吧。明白这篇论文,首先要明白几个词,就是论文题目中的affect,judgment,appreciation。affect代表的是人的主观情感,在文本中往往以第一人称来表达;judgment代表的是判断,是社会或道德层面上对于一个事物的看法,往往以第三人称来表述;而appreciation代表的是对于某一个现象的客观评判,同样一个文本从三个角度来看可能会得到不同的情感色彩。例如“他很喜欢杀人”,从affect上来看,主观色彩是积极的,作者喜欢,从judgment上来看,社会道德上认为这句话是消极的。论文作者以这三个概念出发来对文本中的情感色彩进行分类。

一、细粒度的情感分类

        这篇论文第一个特点就是,有别于传统的只将文本的情感色彩分为三类(积极,消极,中立)或者二类(积极,消极)。作者将情感色彩按照不同的粒度分为了三个层次:第一层3个情感标签(pos,neg,neutral);第二层7个情感标签(按照affect,judgment,appreciation将pos和neg分为了三类);第三层14个情感标签主要是将affect个人情感又进行了进一步的划分,这里就不一一列举。后面,作者就在不同层次上做了分类实验,结果是第一层3个标签当然效果最好88%,第二层7个标签71%,第三层14个标签62%。

二、手工制定复杂的词搭配规则

        论文的第二个特点就是,手工指定了很多词的组合规则,也就是不同词的组合是怎么影响整体的感情色彩的。这一部分占据了论文的主要篇幅,我想论文的闪光之处也是在这个地方。但是同时也是这个地方,让我感觉到这篇论文可能出自语言学家之手。

        研究词的组合,那么首先就要先分析词。作者将词分成了4类:情感表达词、修饰词、“功能”词和语气词。下面分别对四类词进行讲述:(1)作者采用了一个情感数据库Sentiful database。数据库中对情感相关的词分类为9个标签(anger,disgust,fear,guilt,interest,joy,sadness,shame,surprise),然后又为每个词定了一个0.0到1.0的数值来表示情感的强度还有词性。论文作者在此基础上进行了扩展,由于作者将情感分为affect,judgment和appreciation三类,所有不同的词可以在不同的上下文环境中属于不同的类,对应的就会有不同的值,作者在这里有针对不同的类给词标注了情感强度值。(2)修饰词和功能词,论文作者收集了138个可以影响上下文情感的修饰词。有把这些词分成了5类:a)表示强度和程度的副词可以影响词情感强度,这里给每个副词标注了情感强度值。b)否定词,改变句子的情感倾向。c)怀疑和否定的副词,也可以改变句子的情感倾向。d)介词,可以使情感相关的词变得中性化。e)条件状语,例如if,even though也可使词的情感色彩变得中性化。功能词分为两类:加强型的形容词和反转型的形容词,顾名思义,就是增强和反转情感色彩的形容词。(3)语气词:表达作者对于一个事实的信任程度,作者收集了13个语气动词和61个语气副词,并给每一个词标注了信任程度值。

     对词进行分类之后,下面就讲述词的组合是怎样表达情感色彩的。1、第一种词的组合就是反转组合,就是一个情感表达词前面加个词,使得整个词组的意思和情感表达词相反。(1)否定词(never)(2)否定性功能性形容词(reduced)。(3)否定或怀疑的副词(scarcely)2、个人情感即affect,作者总共分了9类,三个积极的,六个消极的,三个积极的类别如果被否定了,那么情感色彩就归类为六个消极的,反之亦然。这样的话,当我们确定一句话的类别后,只要前面有否定关系,那么就可以把它的情感色彩反转,这里没有说具体的三个积极小类和六个消极小类是怎样对应的。3、(1)如果词组是形容词-名词,名词-名词,副词-形容词,副词-动词的组合,且组合的情感极性有相对的极性,那么整体的词组的情感色彩有前一个单词决定。(2)如果两个词的极性相同,则强度值取两个极性的最大值。4、如果一个短语或子句中有传播型动词或者共享型动词的话,就会符合一定的规则。(1)所谓传播型动词就是如果动词的目标是中性的,那么动词的情感会影响它的动作目标。例如“羡慕你的条件”,“你的条件”是中性的,那么“羡慕”这个词就会将“你的条件”变为积极的。(2)共享型动词,就是在该动词会将其前后的情感共享,例如“他支持希特勒”,“希特勒”是消极的,“支持”是共享动词,这样“他”就会变得消极。5、有些词是具有所谓统治属性的,(1)如果某些动词是所谓的统治性的,那么则不管操作对象的极性,直接以动词的极性而论,例如“欺骗善良的孩子”,“欺骗”是所谓统治性的,即使“善良的孩子”是积极的,整个短语的极性依然是消极的。(2)在复合句中,如果两个短语以“but”连接,则整个复合句的极性是有but后面的句子决定的,而不管前面那个短语的极性。6、有些前缀修饰词和条件状语可以使得表达情感的句子变的中性。例如“我尽管担心他是坏的”。“担心他是坏的”是消极的,但是加上“尽管”这个条件状语,整句话就变得中性化。7、有些词是可以增强或者减弱情感词的情感程度(1)和情感相关的程度副词,例如“非常地”(2)比较级。

        上面定义了一些规则,但是这些规则的前提是要先把词识别出来。作者这里使用了Connexor Machinese Syntax parser来处理文本,返回词、词性、依赖函数、句法功能标签和语态标签。情感分析的粒度级别为:词->短语->-构造句>子句->整句。根据语法规则,短语整合词的情感,构造句整合短语的情感,子句又整合构造句的情感。在处理复杂的句子时,需要将子句之间的关系表示成“关系矩阵”,确定每个子句的情感后,整句就根据“关系矩阵”来整合子句的情感。

三、动词的情感

       该论文第三个特点就是对于动词的情感极性进行了细致分类,制定了相关的规则。文章第二部分主要讲述了词搭配的规则,其中也涉及了一些动词,特别是一些具有统治性的动词。这里作者又详细论述了动词的规则。国外专门有个动词的本体VerbNet,该论文就采用了该本体。作者详细分析了本体第一级的270个类及其成员,从中选择了73个对情感分析有用的类,又进一步将这73个类分为22个类,针对每个类又指定了一些规则。这篇文章让人厌烦的地方就是不停的列举规则,我头都疼了。算了,这里就简单列举一下吧,也不举例了,大家用的时候再研究吧。1、动词-宾语的规则。2、动词-介词短语的规则。3、主语-动词的规则。4、介词短语不是中性的,且动词属于明显支持或反对的态度,则情感被加强。。。。。。还有很多,实在不想写了。

四、确定情感标签

       第一部分说了作者将情感分为三类:affect,judgement和appreciation。上面几部都是确定句子的情感极性,那么现在就是将情感再归到三类中。作者主要采用了两种方法:1、多重标注,人工定义一些词的情感标签及其度量值。2、基于一些规则分析词表达的情感标签。(1)子句的主语的形态和它的前缀修饰词:第一人称代词,第三人称代词,正式声明代词,主格或所有格名词的等等。(2)利用WordNet计算一些特定名词序列的概念领域,不同的概念领域表达的情感类型不同。(3)利用Stanford Named Entity Recognizer的标注来识别实体名词,判断该名词属于人,组织还是位置。这样的话就可对应到不同的情感标签。

       最后,作者做了些实验进行了一下评估和总结,由于意义不大,所以这里也就不提了,实验结果在文章开头也提过了。整体来说,论文作者的细致认真的工作确实提高了情感分类的精度,但是这种做法是不是值得借鉴,有待大家评判。毕竟手工制定那么多的规则,需要大量的时间和精力,对于不同的语言来说可移植性差。个人认为一定的先验知识是必须,但是不能过度依赖,作为计算机领域的人士,应该将主要精力用于研究机器学习的方法。论文在附件中,希望大家看完后,也发表下自己的看法,交流一下经验。如果因为本文误导了读者,浪费了时间和精力,这里先表示歉意。

论文下载



https://wap.sciencenet.cn/blog-516696-394085.html

上一篇:评论《竖起拇指?使用机器学习技术进行情感分析》
下一篇:评论Kim-SM的《自动识别带有情感的词和句子》
收藏 IP: .*| 热度|

6 王晓光 章成志 许培扬 唐常杰 罗汉江 yinglu

发表评论 评论 (2 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-30 10:40

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部