游晓鹏 张景淇 许悦

巧用“基因检测”破解网站“指纹”识别难题
2018-04-03 09:17

 卓中流

■本报通讯员 游晓鹏 张景淇 见习记者 许悦

“基因检测”算法可以运用于网站“指纹”的精准识别?这看似跨度很大的想法却在电子科技大学计算机科学与工程学院2013级直博生卓中流的努力下变为了现实。

由于受到生物医学领域的基因序列检测算法的启发,卓中流提出了一种高效的网站指纹检测算法,弥补了传统模型无法对多级页面跳转进行建模的缺陷,同时提高了单一网页的检测准确率。

这项成果是基因序列检测算法在网络流量识别和针对僵尸网、暗网等检测方面的初次运用,为流量识别领域和网站指纹检测领域提供了新思路。相关论文已经发表在了信息安全领域顶级期刊IEEE Transactions on Information Forensics and Security上。卓中流为第一作者,明尼苏达大学双城分校教授Zhi-li Zhang为共同作者,电子科技大学计算机科学与工程学院(网络空间安全学院)教授张小松为论文通讯作者。

突发奇想:借用“基因检测”算法

从“比特币”到海外代购,跨境交流和贸易往来从未像今天这样方便快捷,但是随之而来的网络犯罪、境外网络诈骗等案件也如影随形。暗网和僵尸网检测成为现代社会网络安全重要议题。

研究者们针对以上问题提出了一种新的解决思路——网站“指纹”识别。所谓网站“指纹”,指的是访问该网站时发送和接收数据包产生的特有信道特征。但是这种技术目前距离“实战”还有较大的距离,尤其是在面对网页的“多级页面跳转”等问题时依然束手无策。如何进一步提高网站指纹识别的能力,卓中流发现了一个新方法。

2016年3月,卓中流无意间看到一篇SCI四区的论文,研究的是如何用“生物基因序列”来做应用识别。他隐约感到,既然都是用于“识别”,那么“生物基因序列”的方法很可能与网站指纹识别有一定的交集。

卓中流抓住了这个灵光乍现的念头,此后的五个月里,他查询了大量参考文献和资料。由于在准备申请公派留学,他没有太多时间去做实验验证,直到于2016年10月到美国明尼苏达大学双城分校,他才真正地开始深入研究。

在明尼苏达大学双城分校,卓中流师从Zhi-li Zhang开展研究工作。巧的是,在这里他再次接触到了用“生物基因序列”来做“流量识别”的文章,这更加坚定了他的想法:生物基因序列的方法一定可以用来识别网站指纹。

克服阻碍:做一个修行的“苦行僧”

从2016年10月到2017年2月,卓中流只专注这一件事情。在这个过程中,他遇到的第一个难题就是,把“生物基因序列”方法用到网站指纹识别上的理论依据何在?经人指点之下,卓中流把目光投向生物医学领域。

“查找文献的过程还是很艰难的,因为我没有太多生物学的知识,只能一点一点地查找关键的理论。”他说,自己从高中毕业后就没有再摸过生物学的课本,没想到这么多年后还要“朝花夕拾”。查询了大量资料后,他将一些生物学的理论知识融入到论文当中。

打好了理论基础只是研究的“前奏”,更加艰苦的工作其实还在后面。

卓中流完成初稿后,立即把论文投给了IEEE Transactions on Information Forensics and Security。投稿后,他其实已经作好了“大修”的准备。到了5月中旬,初审意见回复,审稿人建议卓中流补充实验和数据以便更好地说明观点,他立即按照意见进行修改。

补充实验和数据的过程,卓中流简直像是一个修行的“苦行僧”。他用网络“爬虫”访问了1000多个网站,每个网站至少爬取20次以上;在几万次程序运行中,还要解决“网络抖动”等问题。由于不同网站具有不同的结构,反馈的结果也大相径庭,他需要不断调整自己的程序运行规则。

有一次,程序运行到凌晨4点突发断网,他赶紧从被窝里爬出来,去调整数据接口。这次之后,为避免再次出现这种情况,他在爬取网站时,每隔2个小时就去看看程序运行情况。后来,干脆在手机上专门装了一个远程控制软件,可以实时监控程序运行情况,“连吃饭时都要时不时查看手机”。

终成正果:交叉学科带来的大效果

经过了无数个日夜的“修行”,卓中流把经过大修大补之后的论文发了出去,翘首以盼。最终论文顺利发表在了IEEE Transactions on Information Forensics and Security上,它是中国计算机学会推荐的网络安全方向仅有的三个A类顶级期刊之一,这无疑让卓中流感到所有的辛苦付出都有了回报。

卓中流将“基因检测”算法运用于网站“指纹”识别的一闪灵光,取得了意想不到的效果。在有背景噪声的情况下,采用传统的解决方案,网站的流量特征识别率会变低,无法完全反映流量特征。而卓中流在论文中给出了一个识别更加稳定的算法,能够更好地匹配网站的流量特征。

同时,传统的解决方法都只是在某个网页的超链接构建网页指纹,而卓中流的方法能够把多个网页的超链接结合起来,构建一个更长、更详细的网站指纹,实现了从部分到整体的飞跃。这就相当于基因测序工作从“单个基因检测”一下子跃升到了“人类基因组测序”,因此,它能更加真实地显现用户的访问路径。

据了解,这项流量特征识别技术除了能在网站指纹方面进行使用外,同样能用于对病毒的防护,因为它可以给病毒建立特征序列和“基因图谱”,从而能够很高效地撕下电脑病毒的伪装,防止病毒“蒙混过关”。未来,这种方法还可能在网络攻防中有所建树,尤其是随着互联网已经越来越深入地渗透到社会的方方面面,这项技术也会在我们的生活中起到越来越重要的作用。

“交叉学科研究确实让人受益匪浅!”卓中流说,以开放的态度吸收借鉴其他领域的智慧,可以让我们有更加宽广的学术视野,让我们的思维变得更加“活”起来。

《中国科学报》 (2018-04-03 第8版 科创)

分享到:

0
一周排行