随着对社交网络(social network)研究的不断深入,一个现实的问题一直困扰着政策制定者和社交网络中的个人:可不可以识别出哪些人在一个社交网络中对信息传播有最强的影响力?或者说,社交网络中的个人究竟会不会知道社交网络中谁是影响力最大的?
这里的困难在于,无论对于政策制定者和社交网络中的个人,都不可能有完整的社交网络的信息(即谁是谁的朋友)。即使是身处社交网络中的个人,也只可能知道自己认识的人的信息,而对于自己的朋友之外的信息仍然很难获取。
之前的研究定义了社交网络中每个个体的“重要性”,或者说“集中度(centrality)”,比如特征向量集中度( eigenvector centrality )以及Katz-Bonacich集中度。但是这些定义前提是我们必须知道整个社交网络的信息。
Banerjee, Chandrasekhar, Duflo以及Jackson等人在NBER上的一篇working paper:GOSSIP: IDENTIFYING CENTRAL INDIVIDUALS IN A SOCIAL NETWORK从理论上解决了这一问题。这篇文章从理论上证明了,社交网络中的每个个体,通过简单的数一下每条消息传过来的源头的次数,个体可以知道社交网络中每个人的重要性(集中度)的排序。
(前方高能预警,有数学出没)
故事是怎样的呢?假设一个社交网络中有n个个体,n个个体之间的关系可以通过一个矩阵g来表示( $g_{ij}=1$ 表示i认识j),假设每个个体在得知一个消息(gossip)之后以p的概率告知其朋友,那么可以定义矩阵
$\mathbf{H}(g;p,T):=\sum_{t=1}^{T}(pg)^t$ 其中H的第i,j个元素代表在消息传递了T次之后,第j个人从i得到消息的次数的期望。这样就可以定义一个传播的集中度(diffusion centrality):
$DC(g;p,T):=\mathbf{H}(g;p,T)\cdot 1=\left ( \sum_{t=1}^{T} (pg)^t\right )\cdot 1$ 这个集中度(以下简称DC)代表了在经过了T次传播之后,第i个个体所传播的人数的期望值,这个个体能直接或者间接传播的人数越多,那么显然这个个体在社交网络中就越重要。其他的集中度定义(特征向量集中度、KB集中度)在这里不赘述。
作者考虑了这么一个消息传播的过程(Gossip Process):有一个新消息(无论是消息是事实、猜测或者甚至是谣言、观点)从i传出,i可以告诉k和q,k可能告诉j,j可能告诉q和r,但是在每一次传递中,每个人都告诉传递的下家,这条消息是从i这里传出来的。比如在这里,k从i这里听到了一次,而q则直接从i听到了一次,间接从j这里听到了一次,所以共两次。这里的关键点在于,这个过程并不需要每个人知道消息传播的路径,而仅仅需要知道消息是从谁传出来的,以及自己听到了多少次这个消息。这个计数过程可以如下描述:
$NG(g;p,T)_j:=\mathbf{H}(g;p,T)_{.j\cdot }$ 也就是H矩阵的第j列,代表了经过T次消息传递之后,j从每个个体听到消息的期望次数。
作者证明了,每个人的排序与定义的DC是正相关的,而且随着T趋向于无穷,每个个体都可以完美的知道每个人的集中度的排序。
好了,证明了上面的结论,你能拿出点证据来说明你的理论是对的么?
作者于是需要证明,每个个体的确有识别出“八卦之王”的能力。
于是,作者调查了35个村庄,首先通过调查的方式(比如问你你曾拜访过谁,谁曾拜访过你等问题)描绘出了每个村庄的社交网络结构(g)。然后问了两个问题来统计村民心目中谁是八卦之王:1、如果你有一个贷款产品你想告诉村子里每一个人,你会告诉谁?2、如果有演出消息你想告诉村子里每个人,你会告诉谁?这样,作者就获得了每个村庄的“八卦之王”的提名以及排序。
此外,作者还把商店老板、教师等与其他人接触较多的个体单独列出来作为“leaders”,因为这些人是天然的“八卦之王”候选人(仿照 Bharatha Swamukti Samsthe的做法)。
首先,比较一下被提名的人以及leaders的分布:
可以发现,(A)中的leaders更容易包括很多不重要的人物,而(B)中的排名看起来更靠谱一点。
既然有了网络的信息,就可以计算一下特征值集中度,然后看看村民报告的“八卦之王”跟理论计算出来的特征值集中度是不是一致的:
可以发现,通过特征向量集中度计算的“八卦之王”更容易被村民提名(上图),而且被提名的也更多的出现于特征向量集中度更高的人群(下图)。
当然,这种比较太过于粗略。村民可能仅仅报告那些有更多朋友的人,或者地理位置上更方便传播消息的人,所以作者还做了回归分析,通过控制其他的变量,看前面的DC集中度是不是能更好的预测被提名的概率(次数):
至于回归结果吗,大家看看就好,作者的DC集中度一开始很显著吗,但是随着控制其他变量,显著性水平越来越差,虽然系数值越来越大。但是作者指出,如果做三个集中度变量的联合检验,联合起来却是显著的。问题可能出现在三个变量的共线性上(这也就是我一直强调的,共线性怎么办?没办法,看大神写文章是顺着写的,一开始变量少,慢慢增加变量,而不是相反,怀疑有共线性了再删变量)。
所以呢,你看,村民都是有这种能力的~
转载本文请联系原作者获取授权,同时请注明本文来自王伟华科学网博客。
链接地址:https://wap.sciencenet.cn/blog-81613-833910.html?mobile=1
收藏