马里兰大学法学教授Frank Pasquale新近出版了一本引人注目的著作《黑箱社会:控制资金和信息的秘密算法》(The Black Box Society:The Secret Algorithms That Control Money and Information)(后面简称《黑箱社会》)。该书提示了在大数据时代,应该想设法对付“失控数据”和“黑箱算法”的危险,而这只是过度依赖于大范围企业和政府数据收集的危险之一。
现在,人人都在使用互联网,用于娱乐、教育、阅读新闻或商务活动,编织了一个数据收集的网络,其影响力已经远远超过了普通人所能意识到的幅度。去年5月,美国参议院调查报告说,对一个流行的小报新闻网站的一次访问可触发超过350座其他网络服务器的活动。这些联系大多可能是良性的,包括里面的广告也是如此。但这通常在访问者的电脑中放下了一个软件“cookie”,俗称小甜饼。这可用于识别和跟踪访问者,生成用户的数字档案和在线行为的兴趣和模式。互联网依赖于用户数据来产生定制的广告收入,用于支持网络开发和免费使用。每一天,各个企业就像个人行为中连点绘画的点,默默地记录我们的工作习惯和互联网使用所留下的线索。这些数据非常详细,人们的生活已经到了被入侵的程度。但谁连接这些点,用这些信息来干什么?在这个社会中,对所收集的个人数据通过算法处理等基本功能而故意模糊起来。这就是Pasquale所称的“黑箱社会”(Black Box Society)。
当最开始看到这本书名中的black box这个词时,我第一反应是系统工程中的“黑箱”:只知道一个系统的输入值和输出值,而不知道其内部结构。又看到与社会这个词连接在一起,我猜测可能是讨论认识方面的问题,这个黑箱是相对于人类社会这个主体而言的。客观事物本身是无所谓黑、白之分的,但人类的认识却有一个从不知到知,从知之不多到知之较多的过程。如果我们对某个事物有了确定性的认识,“黑箱”就转化为“白箱”,如果只是部分认识,就是其中间状态“灰箱”。看了部分章节之后,感觉 “black box”在英文世界里应该有一语双关的作用,还可以理解为飞机上的“黑匣子”。Pasquale 接受在线杂志“事实”(TRUE)的采访时,所回答的问题印证了我的想法是正确的(详见博文:大数据的不精确性如何伤害大众?)。
黑箱算法用于对有关主体的位置、年龄、身体状况、政治面貌等做一些似是而非的推论。例如,美国零售巨头Target在一个市场营销策略中,使用有关购买维生素添加剂和超大包包的数据进行推断其客户是否怀孕了。因为将这种算法用于特定任务可为广告商或放贷方带来经济上的利益,因此这些算法通常属于未被披露的“商业秘密”。但Pasquale担心,我们如何被感知,以及我们将被给予什么机会。他指出,由于越来越依赖谷歌或其他搜索引擎,但这些选择和优化很大程度上是依赖一些不透明的程序代码,而且,搜索引擎忽略或压制的信息源是不会被发现的。例如,如果一个搜索引擎算法想要支持自己公司的利益,我们可能永远也不会知道。
另外,我们的个人声誉也通过一些数据进行定义,通过自动信用评分系统和其他分析算法进行,用于确定信誉或就业适合度。从药店获得的有关处方的数据已经被用于医疗中,可用于拒绝一些个人保险的覆盖范围。但是,我们是否能正确对待这种分析呢,因为我们目前检查、纠正或挑战这种分析的能力明显是有局限性的。信息获取技术将根据不同的分层类别(如性别、年龄、种族和人种等)进行区分,称为差分访问(differential access)。金融行业中也明显出现了黑箱决策,用于开发市场相关信息的差分访问。Pasquale相信,通过采用集约计算来模拟和预测市场行为,金融行业已经笼罩了一种神秘感。华尔街的一些公司,通过夸大这种模型的有效性,隐瞒了风投和监管机构中的风险,从某种程度上加剧了2008年的金融危机。
隐藏算法做出了许多影响重要社会领域的决策:经济,个人和组织声誉,促进信息等等。由于笼罩着保密性和复杂性,这些规则或过程,被认为是无偏见的,是公正的,因此可用于自动决策。硅谷和华尔街的主要公司长期以来被认为是中立的技术公司。然而,最近爆发的一些丑闻,以及研究人员和调查记者所发现的信息说明,这些算法可能不是像我们所想象的那么中立。自私和鲁莽行为是非常普遍的,而且容易隐藏在受法律保护的代码下,成了真正的秘密。同时,也没有机制、法律或其他什么能让一些组织因为评价让这些隐藏过程变得透明。美国硅谷和华尔街一些主要公司的决策都是依靠一些隐藏的自动化算法驱动的,因此这些公司可以快速批准信贷、进行网站排名和其他无数决策。但这些方法的成本是什么?他们用我们的数字档案究竟在做什么呢?
一个计算机程序有种族主义吗?设想这样一种情景:一个计算机程序根据个人历史和债务等案例来扫描租赁申请。这个程序的决定是基于大量信号的,比如租赁历史、信用记录、工作和收入等。工程师用一些示例数据来所程序进行“训练”。人们使用这个程序一直没事儿,直到有一天,有人想将两个看似具有平等条件的申请者进行比较,唯一的区别是种族。程序拒绝了黑人而接受了白人申请。工程师们吓坏了,但说这个项目只反映了训练数据。那么是他们的算法有种族偏见吗?
Pasquale还引用了2013年的一项研究“在线广告交付中的歧视”。哈佛大学教授Latanya Sweeney发现,被辨认为黑人名字的访问者经常受到像“Lakisha Simmons(典型的黑人名字),Arrested(逮捕了吗)?”,而被辨认为白人名字的访问者则收不到。由于谷歌的秘密武器是保密,Sweeney只能猜测是否她的姓名与特定包含“arrest”的广告模板有关,因为这些广告有更高的点击率或其他原因。尽管谷歌广告联盟(Google AdSense)在程序中没有加入任何明显的种族偏见,而结果却毫无疑问是一种偏见。当然,这个例子还值得继续测试。那么那些还没有引起人注意的日常分析又将如何呢?
上周出版的Nature中,发表了的一篇针对该书的书评,讨论了有关个人数据收集的隐性影响方面的研究。上述的黑箱社会实践与大众审查是绝缘的,这就是问题的根源:黑箱社会倾向于排除独立监督和纠错,甚至自由市场的竞争。Pasquale认为,我们现在需要做的是,是设置大数据影响我们生活的边界。他提供了一个在搜索、声誉和金融等代表性领域开发的信息调查,以支持他的论点:算法决策的任性方法正将我们带到大多数人都不想去的地方。例如,随着广告提供商,如谷歌广告联盟等力量的增长,许多在线出版商却看到他们的广告收入在下降。国土安全“融合中心”正在从私人数据代理那里以信息共享的名义获得不受监管的信息,整合政府数据收集(受法律约束)。Pasquale指出,更不靠谱的是,美国财政部鲜为人知的金融研究办公室,有时也被称为“金融的中央情报局”,它们旨在对金融市场的实时情报进行监管。这本书依靠有用的研究,对这些问题撰写了许多启发性的奇闻轶事。
与“黑箱社会”相对的是“显式社会”(intelligible society)。Pasquale在这本书中或多或少给出了一些补救建议。美国国会图书馆为什么不能提供一个公共图书搜索功能来补充数字化项目Google Books呢?为什么不委任一个基于开源软件的公共信用评分系统呢?这里面隐含的问题是,为什么不能用一个开放的、可解释的算法决策工具来代替黑箱系统呢?一个显式社会将确保最重要公司的关键决策是公平的,一视同仁的,并接受批评。硅谷和华尔街在利用其他人的时候需要有更多的责任。
总之,借助于社会科学家、律师和技术人员的工作,黑箱社会提供了大数据政治经济学的大胆新设想。数据驱动的企业在确定机会和风险中发挥着越来越大的作用。但它们所依赖的自动判断有可能是错误的,有偏见性的,或有破坏性的。如果这些东西是隐藏的,那么错误的数据、无效假设和有缺陷的模型就不能得到纠正。这种黑箱危及了我们所有人。
参考资料
[1] Nature 517, 435–436 (22 January 2015) doi:10.1038/517435a
转载本文请联系原作者获取授权,同时请注明本文来自赵斌科学网博客。
链接地址:https://wap.sciencenet.cn/blog-502444-862646.html?mobile=1
收藏