维克托·迈尔-舍恩伯格的《大数据时代》被认为是迄今为止全世界最好的一本大数据专著。书中明确提出了大数据时代的重大转变,我喜欢称这种转变为大数据思维,并特别赞同这本书所突出的三个特点:1)利用全体数据,而不是仅仅依靠少量的数据样本;2)重视混杂数据,而不是刻意追求狭隘的精确数据;3)关注相关关系,而不先探求难以捉摸的因果联系。
今天想谈论的话题,与第一条和第二条都有关。获取全体数据在大多数情况下都是一个假设的理想条件,随着我们所获取的数据变得越来越庞大,我们也正在逐步逼近全体数据,更多的测量意味着更全的数据。由此也带来了第二个问题,那就是数据的混杂项:数据量的大幅增加会造成结果的不准确,一些错误的数据也可能混进数据库,但这些问题显然并非无法避免的。从另一个方面讲,大数据因为更强调数据的完整性和混杂性,可帮助我们进一步接近事物的真相。如果我们过度关注精确性,就会将视野局限在那些可以分析和能够确定的数据上,缺乏从不同角度来观察事物,对事物的整体理解也就会出现偏差甚至错误。
让环境监测走众包测量之路,一直是我最期盼的事儿,也是最近在许多场合与朋友们讨论最多的话题。我喜迎便携的环境监测设备问世,最好是基于手机插件或可穿戴设备的传感器出现。有关用手机众包方式进行气象测量的话题,我之前有多篇文章进行了介绍[1-4],但进行环境测量的案例并不是很多。因此,一个月之前,当我看到一篇文章介绍手机将拥有嗅探功能,可利用这个功能进行大气污染物测定的潜力时,有些兴奋不已,并为此写了一篇文章进行介绍:智能手机终于要拥有嗅觉功能了[5]。
原来,这种兴奋的感觉还可以继续的。昨天又看到Nature上的一篇文章“污染巡逻”(Pollution Patrol)[6],硬是将这种兴奋持续到完成这篇博文。首先说一下这篇文章的名字“污染巡逻”,很像一款游戏吧。一查,还真是一款简单的移动跳跃躲避类动作游戏,游戏者需要移动小球到达蓝色小球,同时必须注意避开一些不能碰的小球,否则就受到污染了,污染到一定程度就丢掉了性命。
这篇文章是从介绍乌兰巴托的冬季开始的。蒙古的乌兰巴托是世界上最寒冷的首都,居民用煤或薪材加热那并不保温的房子。随着冬季降临,空气开始变坏,烟尘充满天空,人们要带上口罩,数百米开外的建筑笼罩在浓雾之中,穿上白色衣服在这样的环境中只需要数小时就会变成灰色。这个城市是世界上污染最严重的之一。根据世界卫生组织(WHO)估计,空气中颗粒物污染会导致城市十分之一的死亡率。但有关污染程度的信息是很有限的。WHO的在线数据库只有乌兰巴托一年的读数,显示有害颗粒PM10和PM2.5的浓度。为了填补这个空白,新闻研究所(Press Institute)的记者自己动手来进行监测了。他们通过与地球记者网络(Earth Journalism Network)合作,2014年7月份在整个城市安装了儿童饭盒大小的5个监测设备。这个设备称为DustDuinos,测量颗粒物浓度并可迅速将数据上传到公共网站(图1)。这些设备的充电和连接还存在一些小问题,从城市中心传感器所测定的初步结果显示,PM10浓度至少高达世界卫生组织所建议极限值的两倍。
图1 DustDuino。测定大小等于或小于10微米(PM10)和2.5微米(PM2.5)的污染颗粒浓度
DustDuino及其他一些污染传感器,用50美元就可以搞定,网上有这些传感器的使用说明,这是下一波环境运动的部分成果。如果要问,你家里或者居民小区受到污染了吗?即使到目前为止,这也是非常难于回答的问题,因为能测量大气污染的监测设备价格昂贵,一座城市只在有限的地方进行了安装,数据分布非常有限,大多离自己住的地方很远。于是,全球各地的记者、游说团体、黑客等等开始倡导使用低成本的监测设备来大幅扩大有关污染的数据量。这些DIY运动,导致了低成本传感器的出现,可以在线购买或者根据线上指导进行建造。这些设备很容易装备起来,相比于官方数据网络采用复杂而稀疏的传感器设备进行监测,是一个重要的补充。公民科学的方法旨在对人们实际生活地方的空气污染进行高分辨率的测量。还有一些工作正在开发可穿戴传感器用于监控人们所暴露大气的实际水平。
让普通民众来参与污染监测是只到近些年才开始发生的事儿。传统的空气质量传感器是很昂贵的,或者需要进行一定的培训,所测定的数据一般是获得不了的,或者难以使用和分享。当一些玩家开始考虑自己焊接一些电路和传感器来进行DIY的时候,这种变化就开始发生并产生了新了的挑战。这个运动可追溯到2006年,当加州大学欧文分校的Beatriz da Costa将一个小型传感器绑到信鸽身上。Da Costa曾与工程师开发了一套仪器组件,测量一氧化碳和氮氧化物。还有一个全球定位系统(GPS)接收机跟踪鸽子的运动轨迹。她将这些数据发布出来,称为PigeonBlog,她的目的就是为了打破目前的现状,让公众在收集污染数据中扮演重要的角色。大约在同一时期,用于其他方面的传感器也开始出现了。超过三分之二的美国成年人现在说他们利用技术来跟踪心率和其他健康数据;一些家用设备可时时刻刻监测水和电的使用情况,城市使用传感器来跟踪从行人交通到管道漏水的方方面面。
2011年,一群电脑高手、制作者和艺术家们聚集在阿姆斯特丹和纽约,组成了一个自称为Sensemakers的联盟。他们在自己的博客中写道,政府没有在地方水平监测那些实际影响到人们生活的污染。Sensemakers发起了一个在线呼吁,要通过社区来开发传感器对空气污染进行测量。他们通过众筹平台Kickstarter募集了超过144000美元的资金,开发出了可测量温度、湿度、二氧化碳和二氧化氮的设备空气质量蛋 (AQE,Air Quality Egg)(图2)。传感器的成本185美元,不到中档设备价格的十分之一。大约在几乎相同的时间,西班牙也出现了类似的工作。巴塞罗那微观装配实验室(Fab Lab Barcelona)主任Diez Ladera 梦想公民们能够实时监控他们呼吸的空气,以便社区的其他人都能从中受益。他们经过一年时间考察一些可用的技术,最后确定他们可以自己实现这个梦想了。他们早期的原型发展成一个传感器组件,称为智能公民工具包(SCK)(图3),可以测量空气质量蛋中的所有指标,还包括光强和噪音。这个团体建立了一个网站,鼓励DIY们建造或购买设备来监控当地的污染状况。因为这样的开源传感器可以在任何地方进行制造,所以很难追查到究竟已经生产了多少了。根据这些设备的发明者所提供的信息,至少有35套DustDuinos,2500套AQE和1000套SCK了。这些设备产生的数据在类似Xively等在线平台上向公众开放。
图2 空气质量蛋(AQE)。测定二氧化氮和一氧化碳、湿度和温度。在线数据通过单独基站获取。
图3 智能公民工具包(SCK)。测定二氧化氮和一氧化碳,以及以及光、湿度、温度和噪音污染。
美国得克萨斯大学环境研究人员Joshua Apte之前的工作表明,了解人类生活的环境中的污染水平是多么重要。2014年他花了四个月的时间,用人力车安置了一个中等距离的传感器称为DustTrak,并带着它穿过新德里的道路,实时测性污染信息。Apte想了解污染水平如何改变人们的日常工作,他发现了很大的变化。在交通要道,例如卡车通过所喷出的烟雾会导致PM2.5浓度增加高达50%。在这个测试中,Apte还发现比PM2.5还小的有害超细颗粒物以及纯碳粒有更大的波动。如果要在整个城市部署空气污染的监测网络,每个传感器要高达一万美元,还不一定做得成。
这些努力已经吸引了一些市政府和公民团体的注意。2014年初,阿姆斯特丹官员向100位市民提供了SCK,以及如何在居民区使用这种设备的说明。 在2014年5月,由曼彻斯特创新实验室的FutureEverything组织的团体,在英国建立了一个围绕城市中心的传感器网络,目的是测试一下如何用这些数据来提高城市的生活质量。
这样的DIY设备,建立在开放的原则基础上,努力推动对空气质量进行民主化监测,不再仅仅是政府和学术研究领域。但该方法的倡导者仍然需要说服那些常规污染研究人员,因为这些研究人员担心这些廉价设备所测数据的质量问题,而且都是一些相对缺乏训练的人在进行测量。
看来,支持者的热情并没有打动环境研究者。环境研究者认为,用于SCK和AQE的传感器无法提供强有力的污染数据,监控空气污染水平远比廉价传感器的制造者和供应者所建议的要复杂。温度、湿度和气体会影响AQE和SCK的测定,使人们难以比较不同设备所获得的数据。 这些DIY的努力也缺乏污染专家的投入,专业技术人员和科学家会非常关注安装仪器的位置以及对传感器的维护,如果不关注这些事情,数据本质上就毫无意义,因为错误的测量数据没有可比性。因此,这些问题减少了数据在环境保护中的有效性。
曾开发了用于室内颗粒物传感器的Smith说,这些数据的传递和储存方式使其难以分析和形象地讲述一个连贯的故事,并说他们从开发自己的智能廉价传感器中学到的一件事,就是这些设备所产生的数据并不干净,要得到一些有用的数据最终还需要很多工作。 鉴于这种担忧,科学数据集的储存中心尚未接受大多数DIY传感器产生的信息。而且他们还表示,在市民传感器项目得到的数据得到改善之前,是不会将这些数据纳入伦敦空气质量网的。
上面这个纠结的故事说明,在许多方面,我们还在信息匮乏的假设下做很多事情,依然是小数据思维模式。我们已经形成了一种习惯,在我们的制度、处理过程和激励机制中尽可能地减少数据的使用。我们甚至发展了一些使用尽可能少的信息的处理技术,统计学的一个目的就是用尽可能少的数据来证实尽可能重大的发现。如果我们总是假定自己只能收集到少量信息,那结果可能就真的如此了。但是,我们已经进入了一个新的世界,在这里人人都拥有能收集和处理更大规模数据的能力,这是一个自我实现的过程。
这就涉及从小数据到大数据思维转换中精确性与混杂性的问题。在数据量不断增加的新情况下,允许不精确的出现已经成为一个新亮点,而非缺点[7]。放松了容错标准,人们获得了更多数据,反而可以利用这些数据做更多新的事情。这就不是大量数据优于少量数据那么简单了,而是大量数据增加了观测事物的维度。随着数据的增加,错误率也会相应增加,但众多的数据合起来就可以提供一个更加准确的结果。因为这里面包含了更多的数据,而它提供的价值不仅能抵消掉错误数据造成的影响,还能提供更多的额外价值。如果只有一个测试仪,那么就必须确保这个测试仪是精确的而且能够一直工作。另外,更多的数据意味着单条记录不是那么重要,即使有偶尔错误的数据出现,但已经在数据洪流中被淹没了,其集中的趋势反而显得更加精确。更重要的是,可观察到一些本可能被错过的变化。
DustDuino的开发者Matthew Schroyer说,将一个具有足够时间跨度的数据进行平均,是可以与更昂贵传感器所产生的数据进行比较的。一个独立研究小组报告称,当取样时间窗达到1小时时,DustDuino与更高成本的传感器表现一样良好。Schroyer也承认,在瞬时数据收集方面,DustDuino还不够精确,因为其测量结果包括太多噪音。 AQE和SCK的开发者也承认,传感器面临萌芽期期的困难,但他们表示这是能够解决的。预计2015年年初将发布新一代SCK,该设备可预先校准,也配置更好的传感器,数据质量足以同官方空气质量标准相媲美。
目前,一些研究人员正在与公民监测运动进行联合。例如,尽管存在数据质量的问题,伦敦可持续性交换项目的倡导者正在与社区合作来测定城市的空气污染。EPA也开始接受市民监测的概念,他们正在考虑如何用低成本、低精确度的传感器所获得的数据来补充那些零星分布的顶级测量设备。这些新的技术具有潜在的价值,无论我们是否准备投资或使用它,它已经到来了。2013年,美国环保署宣布,让开发者来制作集成了空气质量与健康数据测量的低成本可穿戴传感器。在接下来的几个月,美国环保署将宣布资助获胜方450万美元用于研究社区的低成本空气质量传感器。随着政府削减预算,昂贵传感器网络也会减少,开发公民监测可填补这一缺口。预计有一天,人们的衣服就能直接测量所接触的致癌物质,手机能嗅出污染颗粒物,无人机盘旋在城市上空寻找天然气泄漏。可移动的纺织品健康监测,这是很有可能的,目前全世界各地有许多高手正在研究这些技术。
参考资料:
[1] “手机电池测量气温”背后的故事与思考
[2] 科学观测也拥抱“众包”革命:用智能手机跟踪气候
[3] 宅男宅女们也能成为博物学家,成为环境监测者
[4] 智能手机和网络协作打造新一代博物学家
[5] 智能手机终于要拥有嗅觉功能了
[6] Nature, 157, 136-138, 2015-01-08. Pollution Patrol.
[7] 维克托·迈尔-舍恩伯格。大数据时代。浙江人民出版社。
转载本文请联系原作者获取授权,同时请注明本文来自赵斌科学网博客。
链接地址:https://wap.sciencenet.cn/blog-502444-859378.html?mobile=1
收藏