|||
此文拟送《复杂系统与复杂性科学》专刊发表
中国科技大学的人类行为动力学研究
韩筱璞1 汪秉宏1,2 周涛1,3
1:中国科学技术大学近代物理系,合肥;
2:上海理工大学复杂系统科学研究中心,上海
3:电子科学技术大学互联网研究中心,成都
摘要:近年来,对人类行为的特性统计显示出了多种非平庸的普遍特征。其中之一是在对时间行为和空间运动行为的统计中广泛发现了满足幂律分布的统计量。我们对于各种人类行为中的统计特性进行了广泛的经验研究,发现了多种形式的越来越多的经验性证据表明许多人类行为的事件之间的时间间隔分布普遍存在宽尾特征。同时,针对对各种人类行为中的非泊松时间行为特性和空间运动特性的动力学机制,我们还进行了广泛的模型研究,发现了自适应兴趣、层次性交通网络影响等多种影响人类行为特性的基本机制。
1、前言
探索人类的各种行为的统计特性,是探索自然界、认知人类自身的一个重要方面,对于研究经济、心理和众多社会学类学科有着重要的意义。在研究涉及人类行为特性的问题时,一个常常采用的传统近似是,把人的行为简化为可以使用泊松过程描述的稳态随机过程。这种假设导致的一个推论是人的行为的时间统计特征是较为均匀的,两个相继行为之间的时间间隔的偏离其平均值很多的概率很小。但是,Barabási通过对用户电子邮件和普通邮件的发送与回复行为的时间间隔的实际统计,展示了与此截然不同的特性[1,2]:人类行为同时具有长时间的静默与短期的高频率爆发,相邻两个事件的时间间隔分布存在满足反比幂函数的胖尾特性。这些行为的统计特性不能用传统的泊松过程进行描述,说明人类的个体行为可能存在复杂的动力学机制。随即研究者对这一问题展开了极为广泛的实证探索。当前,人们的研究已经涉及到市场交易活动[3,4,5,6]、网站浏览[7,8],电影点播[9],欣赏网络音乐[10],手机通讯[11],在游戏及虚拟社区中的行为[12,13],计算机指令的使用行为[14]等等,普遍发现有类似的非泊松特性。这些现象显示出,时间统计的非泊松特性可能是在人类行为中普遍存在的一种现象。Vázquez等曾将人类行为分为幂指数为-1和-1.5的两大普适类[15],然而近期的更为广泛的实证研究的发现已经大大突破了这两大普适类的范围[9],目前这种普适类的观点已经失去了其普遍性意义。除了时间间隔,一些人类行为时间间隔的相关性和其他一些统计特性也得到了研究者的注意。研究发现,相比于同样存在非泊松时间间隔特性的自然现象常常存在的正相关性[16],这些人类行为相邻时间间隔的相关性并不明显。最近的一些研究表明,这种人类行为缺少相关性的结论可能因自于所用相关函数[17],因此它仍然有待于更深入和更广泛的实证研究的确认,但是这项研究初步把人类行为和其他复杂系统中的行为特性放在同一框架下进行了的比较,暗示其中可能存在统一的深层机制。
人类动力学研究的一个重要方面是探索这种非泊松行为特征的动力学机制与来源。目前的一种重要的解释是基于任务队列理论的[1,15,18,19],它把人的各种日常行为视作处理一系列的任务,并根据日常生活经验,假设人们在处理这些任务的时候会进行优先级划分,首先处理高优先级者。该研究指出,这种具有优先权的行为模式是造成非泊松行为特征的重要原因。这种基于任务队列的理论模型可以相当合理地解释很多人类行为中的非泊松特性,例如电子邮件和普通邮件的发送等。任务队列理论也可以非常容易的推广到存在多个个体之间的社会交互的情况[20]。近年来一系列研究,使得基于排队论的社会交互模型已经成为了理解人类社会交互行为的一种基本建模范式。
尽管任务队列理论模型在解释人类行为时间统计胖尾分布特征方面取得了很大的成功,但是由于影响人类行为的因素是多种多样的,还有很多的人类行为是任务队列理论模型所不适用的。所以也有部分研究从不同于任务队列的方面出发,提出了多种非排队论模型。例如,人类行为中的记忆效应[21],行为的周期性和季节性对非泊松机制的影响[22],任务本身的关联[23]等等。近期的一种理论则从多重泊松分布的角度解释了人类的行为特性[24]。
人类动力学的另外一个重要的研究方面是在人类行为特性对社会系统的影响。目前国际上有部分工作研究了人类行为的非泊松特性对网络传播、通讯等动力学过程的影响。例如,发现相比于一般的泊松特性行为,非泊松特性可以给系统带来一些特殊性质,比如更加迅速的传播速度等[25,26,27]。相比于其他方面,目前这部分研究仍然相对较少。
近年来,人们也对人类活动的空间运动特性进行了大量的实证研究,发现其中也普遍存在有非泊松特性等复杂现象。2006年通过统计银行帐单传递[28],人们发现人类的旅行行程分布也存在接近于幂律的胖尾;Gonzalez等通过统计移动电话用户的漫游过程[29],同样发现该分布同样具有无标度特性,与前面的结果基本一致。更为直接的基于GPS数据的统计结论[30]也支持人类行程分布中存在无标度特性。这些研究所发现的人类空间运动特性总体如下:首先,人类的空间行程分布是很不均匀的,其行程分布满足指数约为-1.5到-1.7的具有明显尾部截断的幂律分布,说明其远大于平均行程的长程运动的概率远高于传统的随机运动描述;其次,人类空间运动具有较明显的局域性,远离某个小区域的概率随时间的衰减较慢,这一特性显示出人类空间运动行为也不能使用Levy飞行进行描述,因为尽管Levy飞行具有较高的长程运动概率,但它不具有局域性;最后,对于个体而言,一般存在少数几个经常前往的地点,到不同地点的平均频率也满足幂律分布,而且具有明显的各向异性。而近期对手机用户的实证研究又指出,人类的日常出行活动具有较强的规则性和可预测性,与传统的基于随机行走的理解高度相悖[31]。此外,生物学观测也发现大量动物的运动具有类似的幂律形式的行程分布[32,33,34]。由于这种幂律形式的行程分布存在较高概率的远程运动,它无法通过经典的随机行走进行描述。虽然对于动物行为中的幂律行程分布已经从多个角度提出了多种模型解释[35-38],但是这些解释能在多大程度上适用于解释人类的这种行程分布模式的产生机制仍然是一个问题。同样,这种运动特性对社会动力学的影响也是一个非常引人关注的问题[39]。
人类动力学这一新兴领域已经成为当前国际复杂性研究的一个新兴热点,也引起了国内研究者的广泛注意。在实证方面,中国科学技术大学复杂系统课题组的周涛等人与韩国成均馆大学及瑞典皇家学院合作研究了电影点播中的人类行为模式以及与个体活动性之间的关系[9,40];洪伟等研究了人类短消息通讯中的时间间隔分布[41],陈冠雄等研究了QICQ用户行为的统计特征[42],发现了即时通讯中存在的多种无标度特性;王澎等探讨了博客写作与交互行为的统计特性[17];上海理工大学课题组的张宁、李楠楠和周涛合作分析了鲁迅、钱学森等名人的邮件通讯数据[43,44];上海交通大学的胡海波等人研究了网络在线音乐的收听行为[10]。在理论模型方面,中国科学技术大学的韩筱璞等提出可自适应调节的兴趣机制来解释人类行为的非泊松特性[45,46],还提出了层次性交通系统对空间运动行为的影响等[47]。北京师范大学的胡延庆等研究了人类空间运动行为中的优化效应[48]。此外,上海理工大学方面还发表了针对人类动力学的中文综述[49],上海理工大学的郭进利等和中国科学技术大学的周涛等人合作编写出版了专著《人类行为动力学模型》[50],中国科学技术大学的周涛、韩筱璞、汪秉宏也在世界科学出版社出版的专著《Science Matters: Humanities as Complex Systems》中撰写了关于人类动力学研究的一个专门章节[51]。在本文中,我们将对其中的部分研究结果进行详细介绍。
2、实证统计研究
(1). 电影点播行为
中国科学技术大学的周涛等统计分析了在线电影网站Netflix的公开数据[9]。这一数据库包含了17770部电影和来自447139个用户的近1亿条点播记录。在不对用户进行区分的情况下,统计所有用户的电影点播时间间隔分布,如图2.1所示,这一分布具有指数为-2.08的幂律尾部。
考虑到在现实中用户点播电影的行为具有活跃程度的区别,部分用户具有更高的平均点播频率,为了考察用户的活跃程度对点播行为的影响,定义用户的活跃程度为在统计时间范围内该用户的单位时间内的平均点播次数,把所有用户按照活跃程度按照递减顺序排序,然后把这些排序后的用户依次分为20个所包含的用户数目基本相同的群体。统计发现,这20个群体的时间间隔分布都满足幂律,其幂指数变化范围从-1.5到-2.7,指数绝对值与群体的平均活跃程度的关系如图2.5所示,两者呈现单调的非线性正相关关系。