博文

评论《竖起拇指？使用机器学习技术进行情感分析》

已有 8295 次阅读 2010-12-16 10:58 |个人分类:情感分析|系统分类:科研笔记| 机器学习, 情感分析

前几天看了号称是情感分析领域的开篇之作《Thumbs up?Sentiment Classification using Machine Learning Techniques》。看完后，感觉从学术角度考虑，这篇文章并没有太多的学术成就，大概只因为是开山之作吧，大家还是给予了很多的关注。下面就详细谈谈这篇文章的内容。

这篇文章主要通过实验的方法在电影评论集上做了分类实验，主要有三个步骤：特征选择、特征提取和分类。通过不同的组合进行实验，得出实验结果然后进行评定，分析总结。特征选择主要包括词频、词是否出现。特征提取主要是在词的选择上，这里主要实现了7种选择：最少出现4次的16165个一元组即单个词、最少出现4次的一元组和最少出现7次的二元组共32330个词、最少出现7次的二元组16165个词、最少出现4次的一元组和词性16695个词、情感形容词2633个、词频最高的2633个词和所有22430个一元组及其位置。分类方法主要采用了三种：NB（朴素贝叶斯）、ME（最大熵）和SVM（支持向量机）。

反正作者就是做实验，根据实验结果进行说话。最后的结论是以词的出现为特征要比以词频为特征要好，词频高可能说明这个词可能是关键词，但是并不能说明它对于情感色彩有什么影响，所以如果词频高的词作为特征可能会抵消一些情感词的效果。在特征提取上，虽然作者加入了一些词性和位置信息这些特征进去，但是实验结果表明分类效果并没有得到很大提高，反而有时会降低准确率，具体原因大概和前面相似，这个只是个人猜测，作者也没给出明确解释。在分类算法上，SVM明显要优于NB和ME，这和传统的文本分类是一致。虽然SVM的效果好，但是好像在建模的过程中花费的时间较多。最终的结论是，采用16165个一元组，特征是词是否出现，利用SVM进行分类，精确度最高，达到了82.9%。

本人按照论文中所述做了实验，采用了和作者相同的数据集，当然是作者提供的了，但是我用的版本比作者发论文时要大一些，总共有2000个分类好的训练集。我自己写程序进行了数据预处理，利用IK分词器进行分词，然后将两千个文本转化成了特征向量，其中采用词是否出现为特征值，提取了词频最高的2664个词作为特征。由于个人的入门级水平，这里采用了Weka进行分类实验，分别采用了决策树的C4.5算法、NB和SVM进行了分类实验。1400个作为训练集建立分类模型，700个作为测试集。最终结果依然是SVM胜出，C4.5的分类准确率只有可怜的62%，NB的准确率为83.3333%，SVM的准确率为82.3333%。虽然测试的结果NB比SVM要好，但是NB模型的预测准确率只有80.0714%，而SVM模型的预测准确率为82.0714%。总体来说SVM更好一些。

从实验结果来看效果很喜人，大家可能认为情感分类很简单。但是问题还是很多的，最大的就是中文的情感分类问题，分词依然是很头疼的问题，并不像英文那么简单；第二点就是跨领域的问题，在电影评论领域，很多词的作用相似，但是如果跨领域的分类例如对论坛评论的情感分析，则会碰到很多的问题。很多的研究工作需要去做，值得大家去努力。

论文

转载本文请联系原作者获取授权，同时请注明本文来自常晓龙科学网博客。
链接地址：https://wap.sciencenet.cn/blog-516696-394070.html

上一篇：评论《数据挖掘的三个挑战》
下一篇：评论《识别文本中的感情、判断和评定》

收藏 IP: .*| 热度|

当前推荐数：2 推荐人：许培扬 唐常杰

发表评论评论 (0 个评论)

数据加载中...

返回顶部

博文发布时间已经超过87600小时，评论已关闭。

常晓龙

扫一扫，分享此博文

BlueGemini分享 http://blog.sciencenet.cn/u/BlueGemini

博文

评论《竖起拇指？使用机器学习技术进行情感分析》

当前推荐数：2 推荐人：许培扬 唐常杰

发表评论评论 (0 个评论)

常晓龙

全部作者的其他最新博文

全部精选博文导读

相关博文

BlueGemini分享 http://blog.sciencenet.cn/u/BlueGemini

博文

评论《竖起拇指？使用机器学习技术进行情感分析》

当前推荐数：2 推荐人： 许培扬 唐常杰

发表评论 评论 (0 个评论)

常晓龙

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：2 推荐人：许培扬唐常杰

发表评论评论 (0 个评论)