以前小方小韩掐架的时候,做过方韩大战的社会媒体挖掘,结果显示两败俱伤。
据说由转基因之争引起的崔方大战是去年中文社会媒体的大事件,因此以小崔和小方两个话题的自动挖掘对照,应该可以反映这场大战的一个概貌,至少是一个侧面。
挖掘的数据来源是目前在我们现有的 index 中的中文简体的社会媒体(因与内容商协商仍在进行中,数据并不完整,但是数据对于两位是一视同仁的。如果有足够的兴趣,也可以继续做一个繁体中文的类似挖掘,看看海外社会媒体如Twitter对大战的反应如何。)另一个需要说明的是,挖掘系统仍处于 beta 阶段,bugs 在所难免,但是多次由第三方判别的质量检测(QA)显示,褒贬抽取的准确度均在 85% 以上。
挖掘区间是 2013 年元月五日 至 2014 年元月五号,整一年。
两位都是大名人,所以这次挖掘的相关数据量上相差不大,都在八万条左右。但一年来总体褒贬指数小崔(41度)远远高于小方(零下5度)。
把两位的一年舆情趋势(Timeline)放在一起对照如下。
下面的 Timeline 把两位的褒贬曲线在同一个座标里交叠比较,更容易做对比分析。
最有意思的是两位的社会媒体形象曲线的对比。小方也有起伏,但是小崔的跌宕起伏的幅度远远大于小方。虽然小崔的总体评价远高于小方,但是去年五月到七月之间,突然一跌千丈(那个时段发生了什么状况?),陷入谷底(六月16日零下92度,此前的低谷有六月2日的零下88度)。在五月五号到六月30之间,小崔的社会媒体评价度低于小方,此后恢复正常。除了五月六月的小崔低谷,小崔在其他时段似乎一直表现不错,社会媒体形象高于小方。
也许把时间曲线图的对比分成按日、按周和按月来展示,其全貌和趋势就更清晰了:
先看过往一年的两位形象对比曲线图:
(1)褒贬度按每日数据展示(net sentiment by days):
(2)褒贬度按每周数据展示(net sentiment by weeks):
(3)褒贬度按每月数据展示(net sentiment by months):
小方似乎习惯于单方面宣告胜利,说 (大意):
经过方崔大战,方还是那个方,崔已不是那个崔(形象完了)
上面的形象曲线图说明,不是这样的。小崔陷入形象危机只有两个月,目前早已恢复,形象与平时一样比小方正面。
刚有朋友指出:崔永元碰瓷方舟子,是九月份才开始的,此前崔算是方的支持者。5-7月崔掉沟里(如果真掉了的话)与方没有一毛钱关系。小崔的低谷是系统的 bug 还是其他的公关失当,需要进一步 drill down 才能得到答案。先存疑。
下面是一年的三幅热议度(mentions)曲线图:
数据量上看,一直比较平稳上升,只是到年底突然呈现一个高峰。与两位相关的数据大体同步。
由于双方的粉丝都很激烈,为免过度解读引起新的口水战,下面只提供数据,不再做解读。
共现主题词:
对二位的社会媒体情绪云图:
褒贬理由的分布:
喜欢的理由:
不喜欢的理由:
所调查的数据来源种类:
所调查的数据分布:
谁发声最大:
社交媒体样本:
DIsclaimer: still in beta, use at your own risk. bug report is welcome.
后续调查见:
【大数据挖掘:“苦逼”小崔2003年5-7月为什么跌入谷底?】 2014-01-06
相关专题:转基因问题
转载本文请联系原作者获取授权,同时请注明本文来自李维科学网博客。
链接地址:https://wap.sciencenet.cn/blog-362400-756180.html?mobile=1
收藏