BlueGemini分享 http://blog.sciencenet.cn/u/BlueGemini

博文

评论Kim-SM的《自动识别带有情感的词和句子》

已有 8027 次阅读 2011-3-8 11:38 |个人分类:情感分析|系统分类:科研笔记| 情感

     最近做了情感分析的综述,然后就开始一步步进行这个领域的学习。前两天看了一篇关于评价词语抽取的论文,是Kim-SM的《Automatic Detection of Opinion Bearing Words and Sentences》,论文是2005年发表在ACL会议上的,思想比较简单,但是一些细节处还是有的模糊不清,这里提出来,希望大家给予指点。
     摘要告诉我们,这篇文章主要描述的是一个句子级的观点挖掘系统。首先,他们定义了什么叫做观点,然后介绍了一种获取情感词和非情感词的有效的方法。然后他们使用获取的情感词来识别带有观点的句子。他们在三个测试集上做了测试:MPQA,TREC博客检索数据,一个内部的数据集。实验结果表明,他们自动发现情感词的方法可以用来有效的识别情感句。
     引言部分首先引出了一个识别情感的系统的必要性。接着将识别的目标定为:观点持有者、主题、观点和情感色彩。并认为中性情感色彩没有太大价值,将识别的目标定位在褒贬分类。作者试图建立一个系统自动的识别给定的带有情感的文本中的观点持有者、主题和情感色彩。但是探索性的手工操作证明这是一个很困难的工作。因此作者将这个任务简化为一个二分类问题,识别句子中的情感。这样的分类任务很容易实施和评估,因为已经创建了足够的测试数据。
    作为最初的指示器,作者从新闻评论和在线反馈文本中发现情态动词、形容词和副词是表达情感的主要标志。第三部分描述了作者们怎样构建这些词语的集合,且不断的增大这个集合。第四部分描述了他们组织和使用这些词语来识别带有情感色彩的句子。第五部分主要进行了评估。
    首先,作者手工收集了一个情感词集合,包括34个形容词和44个动词。那这个集合去进行分类,准确度相当高,但是由于词太少,召回率很低。因此我们使用wordnet在这些种子词上做扩展。我们假设情感词的所有同义词和反义词都是情感词。但是并不是所有的同义词和反义词都能用,因为有些词既可以是情感词,也可以是非情感词。这就提出了衡量情感词强度的需求。如果我们衡量一个同义词或反义词到已知的情感词的情感近似度,然后就可以决定是否使用这个词汇。
    为了获取种子词的同义或反义词的情感强度,作者计算它与手工选择的种子词及其扩展的同义词集合计算距离。作者将目标词的类别指定为距离它最近的类别,即概率最大。计算概率的时候采用了贝叶斯法则,取既属于目标词的同义词,又属于作者事先标注好的集合的词作为特征,计算联合概率,这里是朴素贝叶斯,假设各特征之间相互独立。
   计算公式里说count计算的是第k个特征在w的同义词集合中出现的次数,这就不能理解了。w的同义词集合应该不会重复吧。另外p(f|c)怎么计算,人工标注的情感词集合和非情感词集合中应该是不会有重复的,这里用啥算概率。使用上面的方法进行扩展,作者获得了2682个情感形容词,2548个非情感形容词,1329个情感动词和1760个非情感动词,并且带有强度,这里的强度指的是上面计算的概率值。然后用这些词汇作为特征建立一个NB分类器,最后他们从wordnet中分类了32373个单词。这里就有问题了,这里要分类的是单词,如果将上面那么多词语作为特征,这个向量空间模型怎么表示,权值怎么计算。
   使用通过wordnet的同义反义关系得到的词汇集合在任意文本上进行实验,并不能得到很好的结果。这是因为wordnet的同义词关系不够广泛。然而,这里作者提出使用统计信息来代替wordnet的词汇信息。他使用一个词汇在主观文本中的频度比上在客观文本中的频度,来判断主客观性。因此作者收集了大量的数据进行统计来弥补第一部分的不足。
   作者简单粗略的认为经常出现在报纸社论和给编辑的信中出现的词汇比在非社论新闻文章中的词更可能是情感词(即使社论中也包含报道客观事实的句子)。作者使用TREC的集合来收集数据,提取和分类华尔街的文章,以文章大标题中是否出现“Letters to the Editor”、“Letter to the Editor”和“Editorial”的关键词来判断这篇文档是否是社论。通过这种方法产生了7053篇社论和166025篇客观报道。通过比较词语出现在两个集合中的频率的相对值来判断时候是情感词,最终表示成个概率值。这里使用了SRILM,SRI的语言模型工具,但是问题是这里只做统计并做除法就行了,还需要语言模型吗?对于每个词,计算词它在两个集合中的文档概率。这里使用了Kneser-Ney来处理未知或稀有词汇,不知道具体起什么作用,是不是极小值直接忽略。最后的可能性就是两个值的比值。
    词的评分指示了词对于两个集合的偏向。作者对86674738个词单元进行了计算,之所以是词单元,估计是按照n元语法计算的,会有多个词的组合。自然的,评分接近1的是不可靠的,倾向性不大,无法判定。因此,作者将数据集平均分成三等份,分别计算,如果三份的结果都大于1或者小于才算倾向某个集合。通过这种方法,作者去除了一些噪音词汇,最后产生了15568个单词。简单的将华尔街日报的文章分为社论和非社论文章是很粗糙的。因此为了验证想法的有效性,作者将哥伦比亚大学的Yu和Hatzivassiloglou的实现做了对比。他们的词列表中包含了167020个形容词,72352个动词,168614个名词和9884个动词。然而,这个数据相当庞大,因为有很多冗余统计,例如大小写和标点符号。作者将这个词表和自己收集的在第四部分合并,最后只从哥伦比亚大学的词汇表中选择头2000个情感词和头2000个非情感词作为最后的词表。问题又有了,这里的top代表啥意思,后面证明哥伦比亚大学给的词表中含有强度。第一个方法对于和两个集合距离相等,即计算出的概率值相等的时候,无法判断其主观性。而且对于未登录词或者稀有的词无法分类。
    第二种方法显然没有第一种可靠,但是它可以解决未登录词的问题,两种方法相互弥补,然后又从哥伦比亚大学的词表中挑选了4000个词融合在一起。三个列表都含有词汇的情感强度0-1之间,这里简单的将它们取平均值,然后将它们归一化到-1到+1之间,这样就拥有了更大的情感强度,原因很简单,取值范围有1变到2了。当三个里列表中这个词语都有很高的强度时,最后自然会有很高的强度,如果有冲突,有的高,有的低,那么最后强度肯定减弱。
     在这里作者提出了两种计算句子情感强度的模型。1、所有情感词的分数之和 2、具有很高的情感强度的词汇的出现。这里作者选用了模型2,因为一个句子中有一个很强的情感词就能证明它的主观性。但是问题是,这个情感词的强度要达到什么样的强度,才算做足够强呢?这里作者在人工标注的数据上做了实验。作者建立了两个人工标注的主观句集合。集合A包含50个句子关于福利改革,其中24是主观句。集合B包含124个句子,其中53个句子是主观句。作者让三个人手工对这些句子进行主客观分类。统计结果表明,每两个人对这些句子划分的结果达成一致性的比率平均有0.73。kappa分数是衡量两个人的一致性偶然的程度,取值从-1到1,如果是1,代表两人的一致性是必然的,代表达成的一致的正确性要高。如果为0,就代表两人的一致是偶然的,那么达成一致的结果就不一定准确。这里是0.49,表明虽然三个人结果一致的概率是0.73,但是并不很可靠。
    表3展示了实验结果,对比了Model1、Model2,以及不同的阈值。最后将召回率,精确率precision,F值,准确率accuracy。精确率指专门算一类的正确率,而准确率accuracy是算整体的两类都包括的正确率。反正最后的结果表明,当阈值取0.1或0.2,使用Model2,F值最高。
    MPQA数据集包含了人工标注的新闻文章,使用了一个针对主观性的标注模式,例如信任、情绪、情感观点和推测等。这个数据集是为了2002年的多角度的问答系统的workshop收集和标注的。包含了535个文档和10657个句子。主观性句子根据他们的属性和强度来定义。作者为了把系统应用在句子级别,他们也遵照了主观句子的丁丁。GATE_ON被用来标注言语事件和直接的个人状态的表达。onlyactive属性被用来指示个人状态或者言语时间是否在表达情感、观点或其它状态。GATE_expressive subjectivity标注表达了个人状态的词语和短语。这段说的很模糊,大概需要用过GATE工具和MPQA数据集后才能搞清楚吧。
    在实验中,作者的系统表现了很高的精确度和召回率。作者将自己收集的情感标签解释为MPQA的主观性词汇。为了研究一个句子中情感词的个数和MPQA中将它分为主观类的关系,作者尝试了不同的主观性所需情感词的数量。表4展示了实验结果。表中每一行都是运行了10次,句子是随机挑的,然后结果取平均。实验表明作者自己收集的集合1和集合2作为特征,表现出比用哥伦比亚大学的词汇表更高的准确度和精度。然而,哥伦比亚大学的词汇表可以达到更高的召回率。为了公平起见,作者采用两个集合的头10682个情感词,在同一个句子分类系统上做了实验对比。不过这里没说对比结果。情感识别是TREC2003的新出现的任务的一部分,任务是给定一个主题和相关的25篇文档,找到里面所有的情感句。但是,TREC并没有提供情感的定义,只是凭评审者的直觉来判断。在2003年,有个22个情感主题,总共21115个句子。这些主题通常设计一些争议性话题,因此就有支持和反对。对于情感主题,最后还是有评审者决定,对于情感强度没有分类和对句子主观可能性的没有排序。F值是最后评估的标准。
     作者在这个会议上提交了5个独立运行的项目。采用了Model2的,排在了有14个参与者提交的55个项目中的第二位。有意思的是,作者提交的第三个项目,对于所有的句子都返回主观的判断,居然排在了11位。之后,作者对上面提到的主观性句子判断的两个模型在TREC2003的数据上进一步实验。表5显示了每个模型在两个不同阈值的表现。可以看出模型2在0.2的阈值下表现最好。作者用上面其中一个人工收集的数据集上进行测试,以便来进行参数调整。然后,用另外一个人收集的62个关于枪支控制的句子进行测试。图3展示了两个模型在不同参数下的表现。
    在这篇论文中,我们描述了一个有效自动的算法,通过将两种方法结合来产生情感词。第一种方法仅仅采用了一小部分人工标注的数据。我们证明了可以通过WordNet的自动扩展来找到情感词的同义词和反义词,并将它们当作分类器的特征。

为了计算一个词与情感词语和非情感词同义词集合之间的相似度,我们除了使用词本身外,还使用了给定词的所有同义词拿来计算。作为额外的方法,我们将直接使用WSJ的词汇,来弥补第一种方法的不足。

    使用产生的词汇表,作者在三个不同的测试集上采用了不同的截止阈值。尤其是在TREC2003中,这种方法表现的尤为突出。作者未来的工作目标是能够自动分析反馈文本,来产生一个详细的图来展示回复者之间的赞成反对关系。



https://wap.sciencenet.cn/blog-516696-420014.html

上一篇:评论《识别文本中的感情、判断和评定》
下一篇:关于数据平滑的一些理解
收藏 IP: 61.157.97.*| 热度|

3 黄富强 章成志 钟云飞

发表评论 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-30 08:56

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部