大家在浏览网页中,越来越发现一个令人“惊讶”的现象,有些网站似乎特别了解自己,在一些显现的地方会不断向自己推送一些看似自己非常有兴趣的内容。原来,互联网留下了每一个人的行为轨迹,搜索过什么内容,看过什么新闻和视频,玩过什么游戏,买过什么东西,发过什么言,这些真实的属性数据都被一一记录下来,数据分析者认为这甚至比起注册时填写的社会属性等信息更真实。也就是说,时下不少互联网公司正通过大数据分析,捕捉每一个人的网上行为,并据此来全面地描述目标受众的属性特征,对消费者进行360度画像,进而进行有的放矢的精准营销和推介个性化广告。
过去的精准营销,无非是先进行市场细分,针对目标客户进行特征和倾向分析,然后再考虑实现与客户、消费者一对一的沟通。但是,一个企业不可能将所有的产品购买者或者潜在购买者都列入自己的会员系统,因为消费者们已经厌烦了那些入会广告。那么一个人互联网上留下的行为轨迹就是一个重要的突破点。资深互联网数据专家指出:“大数据就是对每一个个体的精确描述,就是从百万中间找到一个具体的人。”过去营销的对象是一群人,一群被标上各类标签的人,年龄、职业、爱好等,现在互联网大数据能使企业从一群人当中更细分地去对待每一个消费者、用户。这些企业越来越相信,大数据能够让他们发现新的蓝海[1]。
的确,一个人自出生之日,他的数据跟踪就开始了。他的名字,身高和体重都被记录下来,还可能有一些照片。几年后,进入托儿所,首次生日晚会的邀请,在人口普查中被记录。再长大一些,有了形影不离的身份证、银行账户、信用卡和智能手机。他在网上的行为透露出他不断变化的兴趣、忧虑和欲望。有时他还会特意向朋友、陌生人、公司和政府分享一些自己的数据[2]。
从好的方面来讲,人类行为的大规模数据集有可能从根本上改变我们对抗疾病、设计城市或进行研究的方式。无处不在的技术产生了规模巨大的个人元数据。我们的智能手机、浏览器、汽车或信用卡产生了我们在什么地方、我们叫什么名字,我们花了多少钱等信息。一些新的领域如计算社会科学(computational social science)依靠元数据来解决一些重要问题,如抗击疟疾,研究信息传播或监视贫困等。对科学家来说,目前这种大规模行为数据集的使用与显微镜的发明相提并论。约翰霍普金斯大学2011年获得了美国国家科学基金会(NSF)120万美元的资助,建立秒传亿兆(100 gigabit)的网络,网络每天可传输的数据量相当于8千万文件柜的文本数据。该项目的负责人Alex Szalay博士说,“在每个科学领域我们都在生成千兆级数据,如果我们没有与21世纪这个时代相当的数据显微镜、更快的网络和相应的计算能力,我们就被困住了。”在他看来,采用大规模处理能力来过滤千兆级数据的新方法是一种全新的计算,将引发天文学和物理学的新进步,就像17世纪显微镜的出现所导致的生物学和化学上的进步。因此,霍普金斯大学这个秒传亿兆的网络不仅是一个高速网络,而且是研究和发现必不可少的工具,是21世纪显微镜的必需部件[3]。
但是,人们每天流露出的大量数据提供了一些奇妙的新机遇,也带来了一些新难题。应该注意到,这些有关某个人的大量信息收集只是得到别人表面上的同意,或者根本就没有得到任何首肯。不久以后,一个人的整个基因组序列也可能伴随其医疗记录在全球各地研究人员中共享,安置在生活圈子附近的摄像头也记录下一个人的许多行为,甚至当他进入一家商店或机场时就已经通过人脸识别出来。上周(2015-01-30)的Science,发表了以“隐私的终结(The end of privacy )”为题的特刊的17篇文章。今天这篇博文,先向大家介绍其中一篇Montjoye等的报告:在购物中心留下的唯一性:有关信用卡元数据的识别[4]。
根据110万人3个月的信用卡记录的研究发现,只需要四个时空节点的数据就足于将90%的人独一无二地识别出来。如果再增加一个数据,比如某一特定交易的价格,被识别的风险平均增加22%。即使数据集提供的信息比较粗糙,那么在某些方面或者在所有维度下其实也提供了难于隐藏身份的信息。例如,为了保护隐私,可能只提供在某特定地理区域内购物,而不是说在某特定商店内购物,或者在15天内购物而不是说在哪一天内购物。如果类似的数据再增加几个,就可能具体确定到某个人了。这个研究还发现,女性及在较高收入范围内的人更容易通过这种方法被识别,这可能是因为他们在其所去商店之间的时间分配有着独特的模式。
新的计算技术可以结合一些数据片段来识别人或跟踪他们的行为。信用卡记录与手机数据具有唯一性,这并不会让人感到奇怪。但其他大规模元数据集,如网站浏览历史、财务记录、交通出行等,其实也是具有很高唯一性的。将这些数据收集起来,进行一些技术处理,就可体现出一个人的行为特质。浏览网页或交通出行看似零散的,是一个高维不确定的数据,因为一个人可能会浏览各种网站,或者在出行中有各种地铁出入口的组合。但是,针对一个具体的人来说,他的浏览习惯和出行组合是相对稳定的。
该研究还提出了个人可识别信息(PII)的概念,这是美国和欧盟隐私法的基础,但现在对管理元数据集来说有些力不从心了。一方面,在美国隐私法中,只要略去姓名、家庭地址、电话号码或其他PII中列出的信息就可以不违反隐私法,而如今在这种具有高度唯一性元数据集存在的背景下,并不足以保护个人的隐私。另一方面,在欧盟提出的数据监管中,要让隐私法扩展到保护“任何可能涉及到确定或识别某人的信息”,德国电信要达到“不可能识别一个特定人的状况”,但这些看来都是难于证实的。
从技术的角度来看,该研究结果强调了改变的需要。在可能的情况下,开发出更先进和更互动的个人与群体交互的谨慎隐私技术,以及计算隐私权方面的研究。从政策的角度来看,该研究强调了需要改革数据保护机制,让其超越PII和匿名性,对被识别可能性进行更定量的评估。找到隐私与利用之间的良好平衡,这对保护元数据绝对有至关重要的作用。
总的来看,尽管有许多方法可用来保护隐藏在大数据文件中的私人信息,但这可能限制了科学家所能进行的研究,因此必须达成一种平衡。一些医学研究人员坦承,保护患者的数据隐私几乎是不可能的事儿了。相反,他们正在测试一些新的方法来获得患者的信任与合作。同时,我们如何思考和看待隐私问题也应该发生一些变化。年轻人的网络行为已经比年纪大的人暴露了更多有关他们生活的信息。我们想保护什么也是发生变化的,这主要取决于具体的内容、时机或我们将如何推进。正如我们所知,隐私正在终结,我们现在才刚刚开始理解其后果[2]。
参考文献
[1] 大数据:显微镜下的消费者(http://blog.sina.com.cn/s/blog_6f9807a50101g3yh.html)
[2] The end of privacy, Science 30 January 2015: Vol. 347 no. 6221 pp. 490-491
[3] http://gigaom.com/2011/11/08/for-science-big-data-is-the-microscope-of-the-21st-century/
[4] Unique in the shopping mall: On the reidentifiability of credit card metadata, Science 30 January 2015: 536-539.
【未授权发表申明】该文的主要内容被修改后发表在《北京科技报》北京科技报/2015年/2月/9日/第054版,题目为:隐私的终结。但该文发表并未得到我的授权,特此说明!(如果记者或编辑曾联系过我,是我忘记了,请提示一下我们交流的邮件时间,或者提供一个快照,谢谢!)
转载本文请联系原作者获取授权,同时请注明本文来自赵斌科学网博客。
链接地址:https://wap.sciencenet.cn/blog-502444-864930.html?mobile=1
收藏