lyn7311的个人博客分享 http://blog.sciencenet.cn/u/lyn7311

博文

从滴滴被审查谈轨迹隐私 精选

已有 4585 次阅读 2021-7-6 07:27 |系统分类:科研笔记

滴滴再次成为舆论漩涡的中心,之前要么是乘客殴打司机,还是司机杀害乘客,都只是偶发的案件;而这次被网信部门进行的审查,显然要严重的多。在过去的几年里,我们一直关注数据发布中的隐私保护研究,想就此话题略微展开一下。 

1)      有人会觉的,一个人的出行轨迹算不上什么,在2018年百度李彦宏说“中国人愿意用隐私交换便利性”,在现实中也确实如此。而且如果能够通过贡献自己的数据获利,我想很多人会愿意交出自己对数据的所有权。

image.png

这就带来一个问题,如果用户授权滴滴或百度获取并使用自己的数据,滴滴或百度能不能无限制的使用这些数据。肯定是不行的,因为数据与其他东西不同,一条两条不算什么,但是大量的数据一旦汇聚在一起,经过综合分析可能会产生爆炸式的结果。因此,即使用户同意,数据也不能完全交给平台任意处理。

为什么中国人普遍对隐私不太关注?我觉的是可能与传统中国社会基本上是熟人社会有关,单位里社区里总有马大姐式的人物,没有她不知道的事、没有她不打听的事,自然也就没有什么隐私可言。也正因为传统的单位和村落,是一个个物理隔离的社区,信息的传播范围很有限。

image.png   

现在越来越多的人生活在陌生的圈子里,不要说自家赚了多少钱、两口子为啥吵架之类的私事不想让别人知道,在自家门口安装门铃都可能涉嫌侵犯隐私被告上法庭http://news.cctv.com/2020/07/15/VIDEzqn4Fb5BA00Cdq0oGiUI200715.shtml )。

image.png

 

为什么以前大家不在意的事,现在格外在意了呢?因为传统的熟人圈子,周围的人都是一个单位或一个村子的,相互之间知根知底,彼此间可看作经过合法认证的愿意分享信息的成员;而在陌生的圈子里,即使不把对方当作adversary,也不会当作可信任的信息分享者,自然是想把自身信息泄露的可能性降到最小(而非降到零,除非人不在社会上活动)。

到底什么是安全、什么是隐私?我觉得可以这样理解:

安全性针对的数据是只在授权用户之间分享的机密数据,授权用户可得到全部的信息,而非授权者得不到任何信息。安全性依赖好的密码算法来实现机密性、认证性、完整性,可以看作是用好的盔甲把数据严严实实地包裹起来。当然,在保证防护效果的前提下希望盔甲越轻越好,这也和密码算法的Lightweight的要求是一致的。花木兰这套盔甲遮盖效果极好,十多年间战友们竟然都没有发现她是女的。

image.png    

隐私性针对的是数据,则是需要面向公众或非授权方,如果只是开放时需要做的前期处理,比如统计局发布某个地区或某个行业的发展状况,薪资是个很重要的指标,但是又不能泄露从业者的具体薪水。比较有效的方法是发布平均值,发布的数据既保留了原始数据的部分属性,又消除了原始数据的部分属性。可以说,隐私化处理类似女名星的深V装,该露的露,该遮的遮。

女明星深V禮服大比拼,誰更加風情萬種? - MP頭條

所以说,我觉的用上述两个图来刻画数据安全与数据隐私的不同,是很容易理解的。你让走红毯女明星穿上花木兰的盔甲,他们肯定是不愿意的,因为这样就没法向公众发布自己的身材,因此,他们更愿意用隐私化处理的方法;你让花木兰穿上深V裙上阵杀敌,则是拿士兵的生命当儿戏,必须用盔甲把身体严密保护起来。

 2)   轨迹数据与人们的生活息息相关,一条两条的轨迹数据仅涉及出行者的隐私,海量的轨迹数据则会涉及国家安全。但是,能不能把这些数据全部封存起来不向外开放,不就没有数据泄露的风险了吗?这是不行的,因为数据是重要的资源,只有发布共享才能创造更大的价值。因此,应该用深V裙来遮盖,而非用盔甲来包裹这些数据。

事实上轨迹隐私的保护,学术界很早就在关注,主要分为四种情形:  K-匿名方案:将识别用户的属性泛化,使真实轨迹不能与其它轨迹相区分;假轨迹方案:为真实轨迹产生一定的假轨迹来降低真轨迹暴露的机率;轨迹抑制方案:不发送那些能够暴露用户隐私的信息,以此来达到保护用户真实轨迹的目的; 差分隐私方案:添加噪声扰动敏感数据,在使某些数据失真的同时,保持其统计性质。

上述的k-匿名、轨迹抑制、差分等方法,都是在数据已经被收集到平台后,由平台对其做相应的处理,然后向外发布。虽然发布出去的数据不泄露用户的隐私,但是平台是掌握所收集到的原始数据的,大多数的互联网服务包括滴滴都是这样的。这些数据中心一旦出问题,将会造成无数预料的后果,因此,假设数据中心不可信的前提下,对数据做隐私化处理,是很有价值的研究。

去年有学生开题答辩,研究内容大概是在数据中心不可信前提下,把数据隐私化处理的端口前移,在数据收集后即对其做处理,然后再上传平台。当时遭到了一个评委的批评,“你说平台不可信,那政府为什么会让滴滴阿里运行,你这研究的出发点都是错的嘛“。现在看来,学生研究的出发点,并没有错。

我们关注较多的是假轨迹方案,比如骑行共享单车结束后,一段轨迹数据就生成了,在上传到平台之前,生成若干条与真实轨迹相似的假轨迹,一起上传到平台。真假轨迹具有统计特征上的一致性,又具有不可区分性。美国总统出行有两辆完全一样的车,一辆里面有总统,另一辆是dummy,从而起到保护作用。

image.png

据说秦始皇出行也是同样会有两架完全一样的马车,如果有刺客,很难同时对两架车下手。

最初的假轨迹生成方法,是较为简单粗暴的,在真实轨迹上取一系列的采样点,在每个采样点做一些旋转伸缩等随机化动作,生成一个假的位置点,然后把它们连接起来就生成了一条假轨迹。由于这样的假轨迹是基于随机化偏移生成的,在一条较长的轨迹上,总能发现若干个不太符合常理的段落,不太符合人类行为特征的段落。如果一条轨迹上不合理的段落太多,就有理由怀疑这条轨迹是人为生成的假轨迹。假轨迹被发现,自然真实轨迹暴露的概率就增加了。我们在2017-2018年时,曾经对几个假轨迹生成算法进行了检测,发现有80%多的假轨迹是可以被检测出来的,误判率仅在10%左右。

 



   

2019年到现在,我们一直在尝试使用生成对抗网络生成更逼真、并能抵抗机器学习攻击的假轨迹生成算法。



并且,我也曾给滴滴发过邮件,希望能合作。然而,滴滴这样的大公司看不上我们这些低到尘埃里的研究人员,根本就没理我。


   相信此次对滴滴的审查,只是数据治理的一个开端,以后的路还很长,需要技术措施、法规保障等多管齐下保障数据安全与数据隐私。




http://wap.sciencenet.cn/blog-3464286-1294236.html

上一篇:高考志愿填报-绞尽脑汁不如抛个硬币
下一篇:国家自然科学基金的资助改变了我和学生

17 王琛 武夷山 冯大诚 周忠浩 汤茂林 史晓雷 郑永军 鲍海飞 黄永义 吴标兵 雷宏江 姚伟 杨顺楷 段含明 晏成和 吴晓敏 庞峰

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-10-25 09:35

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部