王晓光分享 http://blog.sciencenet.cn/u/limer 武汉大学信息管理学院

博文

计算机情感分析的价值

已有 7602 次阅读 2010-2-16 17:21 |个人分类:生活点滴|系统分类:科研笔记| 文本挖掘, 情感分析

        情感分析是近几年来计算机科学领域的新兴热点,就本质上来说它还是一个文本挖掘研究。

       目前,就我看到的情感分析往往是针对某一个特定的评价对象,利用社会性媒体上(BBS、论坛、博客、新闻、SNS)的文本信息进行积极、消极和中立性评价,并给出一个综合性的评价结果,常常以三者的比例出现。如果做的更细一点就是将评论人进行按地区、年龄、工作等人口属性进行分类,或者按照事物属性进行更详细更多维度的评价,这样的挖掘结果无疑符合营销管理的需求。

        可问题是,这样的比例式结果到底有多大用处,是否有实用价值,我的疑问来自四个方面,或者说情感分析要走向实用还需过四关:

第一关:  情感分析通常是基于海量数据的,这似乎可以保障评价的客观性,问题是单个用户对某一特定事物的评价常常是依赖于不完全信息的,情报学的透视原理告诉我们海量数据比一定数量的抽样数据提供更多信息。事实上,我们对某一事物的评价完全可以通过少量关键信息获得,所以海量数据的采集是否有必要呢?如果你说海量数据采集成本不大,甚至完全可以忽略,好,这一关可以通过,对于不那么智能的计算机来说,数据多点总比数据少点更好,输出的结果更令人可信。

第二关:  情感分析的数据多来自社会性媒体,如BBS和论坛,这样的数据源内有很多噪音和虚假信息,很多利益相关人会开展社会性媒体营销,就是利用人工大规模发布虚假信息,也就是很多“托”,这些“托”们发表的评论数据显然会干扰最后的挖掘结果,并使其失去意义。这一关并不好过,在使用数据以前,你必须进行数据清洗,去除那些虚假信息,这并不容易。事实上,有些帖子的内容真假难辨,连大活人都经常被忽悠。如果你说,没问题,从整体上看虚假信息不会对最后的整体结果产生颠覆性影响,ok,你放弃了结果的精确性,这一关也可以过。

第3关:   情感分析的结果只有三面,这一形式过于简单,人类的情感何其复杂,仅仅利用消极、积极和中立三面难于概括人类的丰富而真实的情感,所以情感分析的结果对决策者到底有多大影响还很难说,这一方面的实证研究极其缺乏。也许你说,三种态度虽然简单,但基本上可以代表了人类的态度信息,好,你对此问题进行模糊处理,这一关也可以勉强通过。

第4关: 情感分析的结果多是静态的,而人类的态度是动态的,经常因为最新的消息和即时感受而发生改变,而这一改变不一定会进一步显示到互联网上,所以互联网挖掘的结果常常是跨时空的,这样的结果缺乏动态性所以其价值就大打折扣。也许你说可以区分意见发表时间,可问题是当初发表意见那波人不一定是现在发表意见那波人,从统计机制上看,结果仍存在瑕疵。

好了,这四关要全部通过并不容易,每一关都可能导致情感分析结果意义丧失。

当然,情感分析毕竟还处于幼儿阶段,它还有很大的改进空间,以上四个问题并非完全不可克服,嵌入语义、加入时间维度、识别并去除噪音都是可以努力和完善的地方。



https://wap.sciencenet.cn/blog-67855-295378.html

上一篇:互联网、数字人文与网络数据采集
下一篇:博客评论发表动力学
收藏 IP: .*| 热度|

3 朱云霞 赵星 章成志

发表评论 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-1 14:55

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部