windhawk的个人博客分享 http://blog.sciencenet.cn/u/windhawk

博文

当机器学习遇到安全:好的、不好的、以及糟糕的那些事

已有 760 次阅读 2021-9-2 14:29 |系统分类:科普集锦


本文源自:CCS'20 KeyTalk 1: Machine Learning and Security: The Good, The Bad, and The Ugly by Wenke Lee

CCS '20: Proceedings of the 2020 ACM SIGSAC Conference on Computer and Communications SecurityPages   1–2https://doi.org/10.1145/3372297.3424552



我将与大家分享下,我关于机器学习(Machine Learning, ML)与安全技术交叉领域的思考。

好的方面(The good)

今天我们有了更充实的数据、性能更强大的计算机设备以及更有效的模型算法,更好地是,我们不再像过去一样,完全依赖于人工提取数据特征了(注:如深度学习CNN/RNN等可以自动提取特征)。ML的分析过程变得更具自动化,所学习的数据模型的表示能力也更加强大,这使得一切进入到积极的循环中:更多更充实的数据训练→得到更准确、表示更强大的模型→实际应用效果更好,促进了实际的设备部署引用→收集到更多的实际场景数据→更好地训练数据模型。一个最明显的结果就是,几乎所有的安全服务供应商都宣称其产品中使用了最新的ML算法或模型(因此更准确、更强大)。

不好的方面(The bad)

未知的内容更多了(There are more unknowns)。过去,我们十分了解所用的安全模型的能力与局限性,比如ML模型中分类原理,自然也明白该攻击者会如何躲避我们的安全模型(注:知道何时模型会误判)。然而如今以深度学习网络为代表的的新一代安全模型,其可理解与可解释性远不如决策树代表的经典ML模型。当我们都无法确保模型是否可信的情况下,又如何将其部署为一个至关重要、甚至生死攸关的安全检测核心呢?

数据污染越来越容易实现(Data poisoning becomes easier)。在线学习和基于Web的学习模型,通常从一个开放的环境中实时收集数据;由于这些数据大多源于用户行为,因此变得更容易被故意污染,如错误信息的制造与传播。我们到底该如何做,才能使得攻击者更难操纵训练数据呢?

糟糕的事情(The ugly)

攻击者可能会持续关注、利用ML模型的诸多漏洞,并同样使用ML模型来自动化自己的攻击(如敌手学习模型)。我们为什么不加固下ML模型呢?因为加固ML模型,与以往的加固程序、系统和网络是迥然不同的,所以我们做不到。我们不得不准备面对、并处理ML模型可能遇到的失败场景。

最终,还是必须依靠人工交互(humans have to be involved)。问题是何时,以及以一种怎样的方式呢?例如,基于ML分析的系统,应当向分析人员提供什么信息呢?同样的,分析人员又应当向系统提供些什么呢?




http://wap.sciencenet.cn/blog-993211-1302552.html

上一篇:君子爱财,取之有道——初读《富爸爸与穷爸爸》

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

全部作者的精选博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-10-19 08:34

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部