BlueGemini分享 http://blog.sciencenet.cn/u/BlueGemini

博文

评论《竖起拇指?使用机器学习技术进行情感分析》

已有 8295 次阅读 2010-12-16 10:58 |个人分类:情感分析|系统分类:科研笔记| 机器学习, 情感分析

       前几天看了号称是情感分析领域的开篇之作《Thumbs up?Sentiment Classification using Machine Learning Techniques》。看完后,感觉从学术角度考虑,这篇文章并没有太多的学术成就,大概只因为是开山之作吧,大家还是给予了很多的关注。下面就详细谈谈这篇文章的内容。

      这篇文章主要通过实验的方法在电影评论集上做了分类实验,主要有三个步骤:特征选择、特征提取和分类。通过不同的组合进行实验,得出实验结果然后进行评定,分析总结。特征选择主要包括词频、词是否出现。特征提取主要是在词的选择上,这里主要实现了7种选择:最少出现4次的16165个一元组即单个词、最少出现4次的一元组和最少出现7次的二元组共32330个词、最少出现7次的二元组16165个词、最少出现4次的一元组和词性16695个词、情感形容词2633个、词频最高的2633个词和所有22430个一元组及其位置。分类方法主要采用了三种:NB(朴素贝叶斯)、ME(最大熵)和SVM(支持向量机)。

      反正作者就是做实验,根据实验结果进行说话。最后的结论是以词的出现为特征要比以词频为特征要好,词频高可能说明这个词可能是关键词,但是并不能说明它对于情感色彩有什么影响,所以如果词频高的词作为特征可能会抵消一些情感词的效果。在特征提取上,虽然作者加入了一些词性和位置信息这些特征进去,但是实验结果表明分类效果并没有得到很大提高,反而有时会降低准确率,具体原因大概和前面相似,这个只是个人猜测,作者也没给出明确解释。在分类算法上,SVM明显要优于NB和ME,这和传统的文本分类是一致。虽然SVM的效果好,但是好像在建模的过程中花费的时间较多。最终的结论是,采用16165个一元组,特征是词是否出现,利用SVM进行分类,精确度最高,达到了82.9%。

      本人按照论文中所述做了实验,采用了和作者相同的数据集,当然是作者提供的了,但是我用的版本比作者发论文时要大一些,总共有2000个分类好的训练集。我自己写程序进行了数据预处理,利用IK分词器进行分词,然后将两千个文本转化成了特征向量,其中采用词是否出现为特征值,提取了词频最高的2664个词作为特征。由于个人的入门级水平,这里采用了Weka进行分类实验,分别采用了决策树的C4.5算法、NB和SVM进行了分类实验。1400个作为训练集建立分类模型,700个作为测试集。   最终结果依然是SVM胜出,C4.5的分类准确率只有可怜的62%,NB的准确率为83.3333%,SVM的准确率为82.3333%。虽然测试的结果NB比SVM要好,但是NB模型的预测准确率只有80.0714%,而SVM模型的预测准确率为82.0714%。总体来说SVM更好一些。

      从实验结果来看效果很喜人,大家可能认为情感分类很简单。但是问题还是很多的,最大的就是中文的情感分类问题,分词依然是很头疼的问题,并不像英文那么简单;第二点就是跨领域的问题,在电影评论领域,很多词的作用相似,但是如果跨领域的分类例如对论坛评论的情感分析,则会碰到很多的问题。很多的研究工作需要去做,值得大家去努力。

论文

https://wap.sciencenet.cn/blog-516696-394070.html

上一篇:评论《数据挖掘的三个挑战》
下一篇:评论《识别文本中的感情、判断和评定》
收藏 IP: .*| 热度|

2 许培扬 唐常杰

发表评论 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-30 10:41

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部