博文

从滴滴被审查谈轨迹隐私精选

已有 6625 次阅读 2021-7-6 07:27 |系统分类:科研笔记

滴滴再次成为舆论漩涡的中心，之前要么是乘客殴打司机，还是司机杀害乘客，都只是偶发的案件；而这次被网信部门进行的审查，显然要严重的多。在过去的几年里，我们一直关注数据发布中的隐私保护研究，想就此话题略微展开一下。

1) 有人会觉的，一个人的出行轨迹算不上什么，在2018年百度李彦宏说“中国人愿意用隐私交换便利性”，在现实中也确实如此。而且如果能够通过贡献自己的数据获利，我想很多人会愿意交出自己对数据的所有权。

这就带来一个问题，如果用户授权滴滴或百度获取并使用自己的数据，滴滴或百度能不能无限制的使用这些数据。肯定是不行的，因为数据与其他东西不同，一条两条不算什么，但是大量的数据一旦汇聚在一起，经过综合分析可能会产生爆炸式的结果。因此，即使用户同意，数据也不能完全交给平台任意处理。

为什么中国人普遍对隐私不太关注？我觉的是可能与传统中国社会基本上是熟人社会有关，单位里社区里总有马大姐式的人物，没有她不知道的事、没有她不打听的事，自然也就没有什么隐私可言。也正因为传统的单位和村落，是一个个物理隔离的社区，信息的传播范围很有限。

现在越来越多的人生活在陌生的圈子里，不要说自家赚了多少钱、两口子为啥吵架之类的私事不想让别人知道，在自家门口安装门铃都可能涉嫌侵犯隐私被告上法庭http://news.cctv.com/2020/07/15/VIDEzqn4Fb5BA00Cdq0oGiUI200715.shtml ）。

为什么以前大家不在意的事，现在格外在意了呢？因为传统的熟人圈子，周围的人都是一个单位或一个村子的，相互之间知根知底，彼此间可看作经过合法认证的愿意分享信息的成员；而在陌生的圈子里，即使不把对方当作adversary，也不会当作可信任的信息分享者，自然是想把自身信息泄露的可能性降到最小（而非降到零，除非人不在社会上活动）。

到底什么是安全、什么是隐私？我觉得可以这样理解：

安全性针对的数据是只在授权用户之间分享的机密数据，授权用户可得到全部的信息，而非授权者得不到任何信息。安全性依赖好的密码算法来实现机密性、认证性、完整性，可以看作是用好的盔甲把数据严严实实地包裹起来。当然，在保证防护效果的前提下希望盔甲越轻越好，这也和密码算法的Lightweight的要求是一致的。花木兰这套盔甲遮盖效果极好，十多年间战友们竟然都没有发现她是女的。

隐私性针对的是数据，则是需要面向公众或非授权方，如果只是开放时需要做的前期处理，比如统计局发布某个地区或某个行业的发展状况，薪资是个很重要的指标，但是又不能泄露从业者的具体薪水。比较有效的方法是发布平均值，发布的数据既保留了原始数据的部分属性，又消除了原始数据的部分属性。可以说，隐私化处理类似女名星的深V装，该露的露，该遮的遮。

所以说，我觉的用上述两个图来刻画数据安全与数据隐私的不同，是很容易理解的。你让走红毯女明星穿上花木兰的盔甲，他们肯定是不愿意的，因为这样就没法向公众发布自己的身材，因此，他们更愿意用隐私化处理的方法；你让花木兰穿上深V裙上阵杀敌，则是拿士兵的生命当儿戏，必须用盔甲把身体严密保护起来。

2) 轨迹数据与人们的生活息息相关，一条两条的轨迹数据仅涉及出行者的隐私，海量的轨迹数据则会涉及国家安全。但是，能不能把这些数据全部封存起来不向外开放，不就没有数据泄露的风险了吗？这是不行的，因为数据是重要的资源，只有发布共享才能创造更大的价值。因此，应该用深V裙来遮盖，而非用盔甲来包裹这些数据。

事实上轨迹隐私的保护，学术界很早就在关注，主要分为四种情形： K-匿名方案：将识别用户的属性泛化，使真实轨迹不能与其它轨迹相区分；假轨迹方案：为真实轨迹产生一定的假轨迹来降低真轨迹暴露的机率；轨迹抑制方案：不发送那些能够暴露用户隐私的信息，以此来达到保护用户真实轨迹的目的；差分隐私方案：添加噪声扰动敏感数据，在使某些数据失真的同时，保持其统计性质。

上述的k-匿名、轨迹抑制、差分等方法，都是在数据已经被收集到平台后，由平台对其做相应的处理，然后向外发布。虽然发布出去的数据不泄露用户的隐私，但是平台是掌握所收集到的原始数据的，大多数的互联网服务包括滴滴都是这样的。这些数据中心一旦出问题，将会造成无数预料的后果，因此，假设数据中心不可信的前提下，对数据做隐私化处理，是很有价值的研究。

去年有学生开题答辩，研究内容大概是在数据中心不可信前提下，把数据隐私化处理的端口前移，在数据收集后即对其做处理，然后再上传平台。当时遭到了一个评委的批评，“你说平台不可信，那政府为什么会让滴滴阿里运行，你这研究的出发点都是错的嘛“。现在看来，学生研究的出发点，并没有错。

我们关注较多的是假轨迹方案，比如骑行共享单车结束后，一段轨迹数据就生成了，在上传到平台之前，生成若干条与真实轨迹相似的假轨迹，一起上传到平台。真假轨迹具有统计特征上的一致性，又具有不可区分性。美国总统出行有两辆完全一样的车，一辆里面有总统，另一辆是dummy，从而起到保护作用。

据说秦始皇出行也是同样会有两架完全一样的马车，如果有刺客，很难同时对两架车下手。

最初的假轨迹生成方法，是较为简单粗暴的，在真实轨迹上取一系列的采样点，在每个采样点做一些旋转伸缩等随机化动作，生成一个假的位置点，然后把它们连接起来就生成了一条假轨迹。由于这样的假轨迹是基于随机化偏移生成的，在一条较长的轨迹上，总能发现若干个不太符合常理的段落，不太符合人类行为特征的段落。如果一条轨迹上不合理的段落太多，就有理由怀疑这条轨迹是人为生成的假轨迹。假轨迹被发现，自然真实轨迹暴露的概率就增加了。我们在2017-2018年时，曾经对几个假轨迹生成算法进行了检测，发现有80%多的假轨迹是可以被检测出来的，误判率仅在10%左右。

2019年到现在，我们一直在尝试使用生成对抗网络生成更逼真、并能抵抗机器学习攻击的假轨迹生成算法。

并且，我也曾给滴滴发过邮件，希望能合作。然而，滴滴这样的大公司看不上我们这些低到尘埃里的研究人员，根本就没理我。

相信此次对滴滴的审查，只是数据治理的一个开端，以后的路还很长，需要技术措施、法规保障等多管齐下保障数据安全与数据隐私。

转载本文请联系原作者获取授权，同时请注明本文来自刘忆宁科学网博客。
链接地址：https://wap.sciencenet.cn/blog-3464286-1294236.html

上一篇：高考志愿填报-绞尽脑汁不如抛个硬币
下一篇：国家自然科学基金的资助改变了我和学生

收藏 IP: 117.140.168.*| 热度|

lyn7311的个人博客分享 http://blog.sciencenet.cn/u/lyn7311

博文

从滴滴被审查谈轨迹隐私精选

当前推荐数：17 推荐人：王琛 武夷山 冯大诚 周忠浩 汤茂林 史晓雷 郑永军 鲍海飞 黄永义 吴标兵 雷宏江 姚伟 杨顺楷 段含明 晏成和 吴晓敏 庞峰

该博文允许注册用户评论请点击登录评论 (2 个评论)

刘忆宁

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

lyn7311的个人博客分享 http://blog.sciencenet.cn/u/lyn7311

博文

从滴滴被审查谈轨迹隐私 精选

当前推荐数：17 推荐人： 王琛 武夷山 冯大诚 周忠浩 汤茂林 史晓雷 郑永军 鲍海飞 黄永义 吴标兵 雷宏江 姚伟 杨顺楷 段含明 晏成和 吴晓敏 庞峰

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

刘忆宁

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

从滴滴被审查谈轨迹隐私精选

当前推荐数：17 推荐人：王琛武夷山冯大诚周忠浩汤茂林史晓雷郑永军鲍海飞黄永义吴标兵雷宏江姚伟杨顺楷段含明晏成和吴晓敏庞峰

该博文允许注册用户评论请点击登录评论 (2 个评论)