李维
【大数据挖掘:方崔大战一年回顾】
2014-1-5 18:11
阅读:5833
标签:大数据, 转基因, 方舟子, 挖掘, 小崔

以前小方小韩掐架的时候,做过方韩大战的社会媒体挖掘,结果显示两败俱伤。


据说由转基因之争引起的崔方大战是去年中文社会媒体的大事件,因此以小崔和小方两个话题的自动挖掘对照,应该可以反映这场大战的一个概貌,至少是一个侧面。


挖掘的数据来源是目前在我们现有的 index 中的中文简体的社会媒体(因与内容商协商仍在进行中,数据并不完整,但是数据对于两位是一视同仁的。如果有足够的兴趣,也可以继续做一个繁体中文的类似挖掘,看看海外社会媒体如Twitter对大战的反应如何。)另一个需要说明的是,挖掘系统仍处于 beta 阶段,bugs 在所难免,但是多次由第三方判别的质量检测(QA)显示,褒贬抽取的准确度均在 85% 以上。


挖掘区间是 2013 年元月五日 至 2014 年元月五号,整一年。


 

两位都是大名人,所以这次挖掘的相关数据量上相差不大,都在八万条左右。但一年来总体褒贬指数小崔(41度)远远高于小方(零下5度)。

 


把两位的一年舆情趋势(Timeline)放在一起对照如下。


 


下面的 Timeline 把两位的褒贬曲线在同一个座标里交叠比较,更容易做对比分析。


最有意思的是两位的社会媒体形象曲线的对比。小方也有起伏,但是小崔的跌宕起伏的幅度远远大于小方。虽然小崔的总体评价远高于小方,但是去年五月到七月之间,突然一跌千丈(那个时段发生了什么状况?),陷入谷底(六月16日零下92度,此前的低谷有六月2日的零下88度)。在五月五号到六月30之间,小崔的社会媒体评价度低于小方,此后恢复正常。除了五月六月的小崔低谷,小崔在其他时段似乎一直表现不错,社会媒体形象高于小方。


 

也许把时间曲线图的对比分成按日、按周和按月来展示,其全貌和趋势就更清晰了:


先看过往一年的两位形象对比曲线图:


(1)褒贬度按每日数据展示(net sentiment by days):

 

(2)褒贬度按每周数据展示(net sentiment by weeks):



 


(3)褒贬度按每月数据展示(net sentiment by months):


 

小方似乎习惯于单方面宣告胜利,说 (大意):
经过方崔大战,方还是那个方,崔已不是那个崔(形象完了)

上面的形象曲线图说明,不是这样的。小崔陷入形象危机只有两个月,目前早已恢复,形象与平时一样比小方正面。


刚有朋友指出:崔永元碰瓷方舟子,是九月份才开始的,此前崔算是方的支持者。5-7月崔掉沟里(如果真掉了的话)与方没有一毛钱关系。小崔的低谷是系统的 bug 还是其他的公关失当,需要进一步 drill down 才能得到答案。先存疑。

下面是一年的三幅热议度(mentions)曲线图:



 

 


 

数据量上看,一直比较平稳上升,只是到年底突然呈现一个高峰。与两位相关的数据大体同步。


由于双方的粉丝都很激烈,为免过度解读引起新的口水战,下面只提供数据,不再做解读。


共现主题词:

 
 


对二位的社会媒体情绪云图:


 
 


褒贬理由的分布:



 

 



喜欢的理由:
 


不喜欢的理由:


 

所调查的数据来源种类:


 


所调查的数据分布:


 


谁发声最大:


 

 

 


社交媒体样本:


 


 


DIsclaimer: still in beta, use at your own risk.  bug report is welcome.


后续调查见:

【大数据挖掘:“苦逼”小崔2003年5-7月为什么跌入谷底?】 2014-01-06

【置顶:立委科学网博客NLP博文一览(定期更新版)】

相关专题:转基因问题

转载本文请联系原作者获取授权,同时请注明本文来自李维科学网博客。

链接地址:https://wap.sciencenet.cn/blog-362400-756180.html?mobile=1

收藏

分享到:

当前推荐数:10
推荐到博客首页
网友评论14 条评论
确定删除指定的回复吗?
确定删除本博文吗?