BlueGemini分享 http://blog.sciencenet.cn/u/BlueGemini

博文

《Identifying and Analyzing Judgment Opinions》论文笔记

已有 5001 次阅读 2011-3-28 19:23 |个人分类:情感分析|系统分类:科研笔记| 情感分析, 观点持有者识别

    今天阅读了《Identifying and Analyzing Judgment Opinions》这篇论文,是关于情感分析中主观判断的识别和分析。这篇论文可以说是上一篇博文《Automatic detection of opinion bearing words and sentences》的延续,作者是同一个人Kim SM,来自韩国的一名女学者,目前在雅虎做情感分析。作者将情感分为两种:1、对于世界的信念:就是认为对错,可能不可能之类的。2、对于事物的判断,就是好、坏等。作者这篇论文主要研究的就是第二种,因为目前大家对于第一种是否是观点没有界定清楚,人工标注的结果很不一致,无法进行实验。选好目标之后,作者将主观判断的识别和分析分为四个任务:1、观点的识别
(主观句、主观表达式的识别)2、观点类型的识别(积极,中立,消极)3、观点持有人的识别 4、主题的识别。这里作者只对前三个任务进行了讨论。其实作者的这篇文章对前两个任务只是轻描淡写,运用的是《Automatic detection of opinion bearing words and sentences》里的方法,就是首先选取动词和形容词的种子词,进行人工标注,利用wordnet进行扩展,然后依据情感词判断情感句的强度,具体的方法可以看上一篇博文,这里就不在赘述。下面,我们主要讲一下观点持有人的识别,以及作者做的一些实验。
    这篇论文中,作者采用了最大熵模型(ME)来解决完成这个任务。第一步,作者首先提取情感句中所有的候选观点持有人,作者采用的方法是根据词性标注将所有的名词短语包括常见的名词短语、名字实体(人或组织)和代词作为候选者,下一步的任务就是从候选短语中选取合适的。首先作者思考了观点持有者的识别方法的两种思路:定义为一个分类问题,分为两类“是观点持有人”和“不是观点持有人”或者是定义一个排序问题,对每一个候选短语进行概率估计,进行排序,取前几个。分类问题有个毛病就是如果所有候选短语都被归为“否定”一类的话,就没有候选者了,这样的答案往往不好。而且,根据作者和一些其他学者的实验表明,分类的效果很差。所以这里,作者决定采用最大熵模型对所有候选短语进行概率估计,算出概率值,然后排序。既然要用最大熵,那么就要进行特征选择,然后对训练集(采用的是MPQA训练集)进行标注。下面最重要的工作就是进行特征选择了。
    判断一个短语是否是观点持有者,首先想到的方法,主要是看这个名词短语和评价词以及评价对象(就是主观表达式)之间的语法关系。这里作者就是采用了这种关系来作为特征。作者选用了候选短语和主观表达式之间的路径信息和节点之间的距离。听起来很抽象,其实这里作者是在句法分析树的基础进行的特征计算。首先作者利用Charniak parser对情感句进行了句法分析,然后定位到候选短语和主观表达式(关于主观表达式的识别,作者在她以前的论文中进行了阐述,这里也没有详细说明,如果同学们感兴趣可以看下Kim SM以前的论文)。接着就计算候选短语和主观表达式之间的特征。(1)路径信息:作者将所有候选短语组成部分的直接父节点标记为H,然后将主观表达式所有组成部分的直接父节点标记为E,包含H和E的直接父节点标记为HE。所谓的路径信息,其实就是H和E之间的节点类型序列。这里作者定义了三个和路径信息相关的特征:HPath、EPath和HEPath。HPath就是标记为H的节点到标记为HE的节点之间的路径,EPath就是标记为E的节点到标记为HE的节点之间的路径,而HEPath就是它到其子节点中包含了H节点或者E节点的孩子节点的路径。(2)距离:就是从H节点到E节点的路径的节点的个数。(3)短语类型:作者将候选短语分为NP,PERSON,ORGANIZATION和LOCATION。这里作者之所以采用句法分析树中的路径信息,原因是直接采用观点持有者和主观表达式之间的一些搭配作为特征肯定会导致数据稀疏的问题,所有作者利用结构信息来表示特征。运用上面五个特征,作者对训练集进行了标注,然后利用最大熵模型进行了概率值估计,排序取最大几个候选短语。
    接下来,作者阐述了对德文邮件的情感分类实验,并没有用到观点持有者识别。所以这里也不赘述。最后作者对于观点持有者识别的方法进行了实验,在2822个句子上做个实验,首先将句子表示成三元组<句子,主观表达式,持有者>,然后进行10等份的交叉验证。实验分为两部分进行,一部分的候选短语中包含了代词,两一部分不包括。结果表明第一部分的效果较好,而且语法关系的加入明显提高了效果。即使如此,作者也表示观点持有者的识别是个很难的问题。
    结论部分作者提出了两点改进的思路,首先在候选短语的选择上,作者提议采用语义特征去除一部分不可能的名词短语。其次,作者将文章开头的几个独立任务综合分析,同时进行,可能会带来更好的效果。
    个人认为这篇文章不算是经典之作,而且作者的实验数据也显示效果并不是很好,观点持有者的识别率最好的才50.6%,如果取排名前三的观点持有者,也只达到76%。值得借鉴的是作者在特征选取上采用从句法分析树中得来的路径信息作为特征,以后如果有需要考虑语法关系时可以考虑这种特征表示。
    


https://wap.sciencenet.cn/blog-516696-427260.html

上一篇:关于数据平滑的一些理解
收藏 IP: 61.157.97.*| 热度|

0

发表评论 评论 (2 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-30 13:58

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部