吴渝
【科学网】博客社区分析(1) 精选
2010-12-2 14:55
阅读:22400

研究对象:科学网博客社区 (http://www.sciencenet.cn/blog/)

工作步骤:获取数据,构造用户网络,各个尺度下用表征不同网络特性的定量指标进行计算,然后对比分析。

关于科学网博客社区:

实验对象为2007年1月至2010年3月期间的活跃的博客用户。通过网络爬虫共获取4703个用户信息,包括发帖人ID、姓名、昵称、帖子链接地址及回帖人相关信和回复时间等。

建立无向回复关系网络,节点表示不同的博客用户,边表示两个用户之间存在评论或被评论的关系。不考虑节点评论自己文章时形成的自环问题。在建立网络过程中只考虑了注册用户之间关系,而忽略了以游客身份进行评论对网络造成的影响。图中虚框表示社区(以1、2、3表示),4、5、6为孤立节点。
 


采用Clauset和Newman等提出的复杂网络社区划分的快速算法进行划分,不考虑孤立节点造成的影响,共提取出8 个最大的社区。为了宏观度量社区划分结果,采用Newman 等定义的模块度(Q值)来衡量社区划分的效果,Q=0.5227,说明科学网博客社区中存在较强的社区结构。

(8个社区的规模、成员、活跃度、分别有哪些知名博主等具体信息未整理,如有兴趣可抽空处理后另外提供。)

定量指标计算和分析

目前已经做了几个指标的计算,它们分别代表不同网络特性和尺度下的信息。本帖仅给出第一个指标及其分析。

(1) 网络结构熵:网络结构熵由连接度分布确定,可以更加精确度量复杂网络的非同质性。



随着时间推进,博客用户增多,该博客网络的标准结构熵在第一个季度(前4个月)呈现基本上升趋势。半年(第6个月)后,标准结构熵呈现下降趋势,说明此时知名度较高的博客节点开始形成。大约1.5-2年时间之后(第20个月),标准结构熵开始趋于平稳,说明科学网开通博客社区的活跃用户群体基本确定下来,网络拓扑构开始呈现稳定状态,社区结构基本形成。标准结构熵开始稳定在0.63左右,此时网络处于“稳定有序”状态。

另外,无论网络结构是否稳定,每月活跃节点数和月新增边数(评论数)却呈现逐步上升趋势(时间单位为月),说明科学网的社区活力一直呈现良好发展态势。
其中,月新增边数的上升相对而言是在稳定上升中存在几次较大的峰值,比如2008年上半年、2009年5月、2009年8月、2009年12月等,表明这些时间在科学网博客社区出现了热门话题。

考虑热门话题引起的评论、关注响应曲线,和我们抓取BBS论坛中突发话题舆情演化的曲线一致(如下图,时间单位为天),即类似控制系统的冲击响应函数,舆情持续阶段包括上升、下降并消失(震荡表示新引入子话题,同样具有相同响应模式)。




显然,博客社区的实时性明显小于BBS这种媒介,信息响应步长较大,即博客社区要慢热得多。分析原因:博主们事务繁忙,不会整天沉溺网站,事件发生后得知时间滞后;和知识分子群体的个性有关,大多慢热,较为理性;即便关注,等到下笔响应,可能一周时间已经过去了;由于实名写作的严肃性,写作前需要字斟句酌,不会轻易表态,等等。

最后,从图表看,社区结构也经历了突现(Emergence)的过程,从无序转到有序,而网络结构熵在这个案例下,可以很好地在宏观层面刻画系统突现行为的演化过程,也体现了网络中结构上的多样性。

暂时的结束语:

本帖涉及的科研工作和复杂系统、突现(Emergence)、网络行为学等有关,是目前在研工作的一小部分。之所以挑选科学网为研究对象之一,也是因为自己身在其中吧。

对未知的世界和信息,我们从来无比好奇!

写博文需要时间,虽然相关工作的论文已经完成,但要以博文形式提供,很多内容却需要重新组织和整理,来不及,仅先行提供这部分以为引子吧。

大家总在说科学网上要谈科学,很赞同,但没必要仅仅如此。似乎我个人对科学这个话题谈得不多,而教育等其他话题更多,这虽然说明了一定程度的排序,但对于教育或者科学二者,我们都远远做得不够。

申明:本文部分图表、文字在整理发表中,版权所有。如确实需要引用,请联系作者获取出处(或引用本博文地址),谢谢。

相关专题:博客感言

转载本文请联系原作者获取授权,同时请注明本文来自吴渝科学网博客。

链接地址:https://wap.sciencenet.cn/blog-53846-389619.html?mobile=1

收藏

分享到:

当前推荐数:46
推荐到博客首页
网友评论12 条评论
确定删除指定的回复吗?
确定删除本博文吗?