许小可
从幂律到长尾:新的旅程
2011-8-25 17:35
阅读:19178
幂律分布是很多系统所拥有的特性,因此判断手头的数据是否满足幂律特性就成了很多科研工作者必须面对的问题,尤其在复杂系统研究领域,这甚至成了一门“显学”和非常有争议的话题。
 
但是如果我们首先分析一下幂律分布背后所包含的物理意义,可能就会有新的视角来研究复杂系统。
 
幂律包含的意思是两重的,一重是系统中数据的分布有一个长尾,这种特性背离了我们以前所熟知的“二八定律”。
二八定律的意思是20%的部分做出了80%的贡献,因此抓住这20%的关键部分就变得非常重要。比如说,我们卖商品要抓少量的超级购物狂、大客户,做生意要做那些大公司的生意,这部份VIP级客户可能会提供给我们大部分的利润,而对各种小客户就不需要太上心了。
 
而长长的尾巴却意味着别拿那些小客户们不当干粮,他们每个人给系统的贡献很有限,甚至微不足道,但是合起来的贡献却远远超过了排在最前面的20%客户。因此这时候的商业模式是要扩大小客户的数量,让无数小客户的贡献汇聚出较大的贡献来。
 
很明显,幂律在长尾的这重解释里面就是长尾的“长”字,它意味着小客户的分布区间足够广,如下图所示。
 
 

在这重意义上,长尾和幂律的区别是:幂律分布需要数据必须在统计意义上可以被幂律曲线拟合;而对于长尾分布而言,能否被幂律曲线精确的拟合并不重要,重要的是有一个长长的尾巴。

 

在另一重意义上,幂律又称为无标度(或无尺度)特性。意思是说数据在多个尺度(或标度)上满足一个共同的规律,这里面一方面是要求有共同的规律(幂律曲线的存在),而另一方面是要求这个规律必须是存在于多个尺度上的,因此像下图里面图C里面无论是否能精确的被幂律曲线拟合,应该都不算是有无尺度特性的存在,因为我们衡量的范围没有超过多个尺度。(随便考考你能不能看出来下面三个分别是啥网络,要是你不知道的话,呵呵,说明你还没如复杂网络的门呢!)

因此,如果我们仅仅从统计分布的角度来考虑幂律分布是否存在,有的时候会只见树木,不见森林,丢掉了我们对系统本身性质的观察(拟合成功系统就具有无标度特性吗?)。而且,对于幂律的痴迷和欣赏也往往加深了我们使用幂律曲线拟合各种数据的兴趣,但实际上数据本身可能对于多种分布的拟合都是可接受的。因此,个人认为不妨大家放将幂律曲线拟合这个数学游戏,直接关注于系统中是否存在一个长长的尾巴。有的话我们就知道,这又是一个二八定律无法解释的系统,我们需要的是使用长尾理论对其进行分析和解释。

 

从上面传统幂律蕴含的两重意义上来看,无标度特性的要求高于长尾特性。这个性质由于要跨越多个尺度展示完美的统一特性,因此对系统本身和数据采样有着极高的要求。个人认为宏观复杂系统(指的是如在线社交网络这样超越统计物理微观层次)里面有这种特性的可能性微乎其微。实际上,尽管从方法和研究本身上我都没有异议,但是从研究哲学和思维层次上,很多复杂网络里面存在结构上的无标度特性(分形特性)是很难理解的事情,因为这意味着层次性在系统结构中的完美体现。(不然的话能出分形吗?)

 

而且,即便是很多系统中确实展现出了无标度特性,比如说我们姑且认为很多复杂网络中度分布具有无标度特性,但是这并不意味着我们就已经拿到破解复杂系统的钥匙。因为尽管使用某种方法建立的模型能重新展现出系统所具有的某种性质,但是这并不意味着我们在模型中提出的机制就是对的,我们在研究中有太多太多这样的经验和教训,而且使幂律涌现的多种机制也恰恰说明了这些假想机制失败的可能性。同时,仅仅围绕对系统某种幂律性质的刻画也不利于我们观察系统原来存在的多种特性,如仅仅拟合复杂网络的几个统计参数就不(能)会考虑其他特性,这也是目前复杂网络研究中建模工作的局限所在。

 

与其这样猜测系统的工作方式,倒不如仅从系统的长尾特性出发看看能做点什么。如果放弃考虑复杂网络里面的度分布是否满足幂律我们并不会损失什么,只要是里面有长尾分布,很多经典的、里程碑式的结论也不会褪色多少。至少对我而言,即便偏好链接机制对于某实际复杂网络不成立、任务优先机制对于人类动力系统不成立,这些都不影响我对barabasi以及更多人开创性贡献的崇拜和欣赏,但是这种能找出反例的解构和还原干扰了我们对复杂系统的认识。

因此,抛弃幂律从长尾出发吧。

 

转载本文请联系原作者获取授权,同时请注明本文来自许小可科学网博客。

链接地址:https://wap.sciencenet.cn/blog-64458-479527.html?mobile=1

收藏

分享到:

当前推荐数:8
推荐到博客首页
网友评论12 条评论
确定删除指定的回复吗?
确定删除本博文吗?