|
密码研究的AI机会与挑战
陈玉玲 贵州大学
在当今“AI for Science”的时代,人工智能(AI)正以前所未有的速度渗透到各个科学领域,推动着技术与理论的革新。密码学作为信息安全的基石,自然也面临着AI带来的深刻变革与挑战。“AI for 密码”不仅是一个前沿的研究方向,更是一个必须认真对待的重大课题。如何在AI的助力下提升密码系统的安全性、效率和智能化水平,同时应对AI可能带来的潜在威胁,成为了密码学界亟待思考的核心问题。以下是我和团队对这一领域的一些初步思考,供各位同行参考与探讨。
一 密钥序列的随机性检测新手段
序列密码是否安全的关键在于所用密钥序列的随机性是否足够强。但是,何为“随机性”呢?过去一直没有公认的量化定义,只是认定:如果知道了某个密钥序列的前面N比特后,若能以远离0.5的概率猜出该序列的第N+1个比特的话,那么该序列的“随机性”就不够强,相应的序列密码也就不够安全。
如何基于某个长序列的前面N比特来猜测第N+1个比特呢?比如GPT大语言模型(生成式预训练变换器)便是一个值得重点考虑的新手段。
具体说来,选择某个真正的代码开源GPT模型(比如,OpenAI的GPT-2或DeepSeek)等,以下简称GPT模型。
假设序列S是待检测的密钥序列,它的长度非常非常长。然后执行如下两步。
第一步:用序列S的前半部分(比如,前面的90%)对该GPT模型进行有监督的训练,并得到新模型(记为S-GPT);
第二步:用新模型S-GPT去对S序列的后半部分(比如,后面的10%)进行猜测。假若最终猜对的概率远离0.5,那就说明原序列S的随机不够好,不能用于序列密码的加密和解密。
实际上,新模型S-GPT是对相应开源GPT模型的一种特定蒸溜,难度有限。
二 密钥序列的生成新手段
移位寄存器、噪声发生器和量子密钥生成器等都是已知的密钥序列生成手段,它们各有优缺点。最近AI圈中非常火爆的生成对抗网络(GAN)也许又是一种新型的密钥生成手段。
具体说来,仿照围棋高手AlphaZero,基于相关的开源模型,设计一个生成模型G和一个判别模型D,让它们像“矛”和“盾”那样构成一个生成对抗网络(GAN)。其中,模型G负责生成足够长(其长度至少应十倍于常规的密钥序列)的比特序列,D负责猜测G所生成的序列(即,用序列前面的90%去训练,然后猜后面的10%)。
如果D的猜测效果很好,那就对生成模型G的相关参数(相应人工神经网络的权重)进行微调,直到判别D不能给出满意的猜测结果为止。如果判别模型D的猜测效果不好,那就对模型D的相关参数(相应人工神经网络的权重)进行微调,直到它能对生成模型G所生成的序列给出满意的猜测结果为止。如此反复,让G和D互相博弈足够长的时间,我们便可得到比较满意的密钥序列生成器G(当然也顺便得到了较强的序列随机性检测器)。
实际上,此处模型G和D是对相应开源GAN模型的一种特定蒸溜,难度有限,应该有相当的可行性。
三 加密算法判别器
在实战中,当我们收到一段密文后,首先要解决的问题是判别该段密文是用哪种加密算法加密的,否则后续的密码破译工作将完全找不到方向。如今,从AI的角度来看,这个问题其实是一个可以用基于深度学习的模式识别来解决的问题。
具体说来,首先,常用的密码算法其实并不多,特别是在民用密码中,常用的密码算法甚至都是公开且标准化的。因此,可以假定可选的密码算法只有n种(这里的n很小,基本不会超过2位数),分为记为E(1),E(2),…,E(n)。
其次,选择某个开源的最佳模式识别模型M,然后对该模型M进行如下蒸溜:
任意选择足够多的加密密钥(在可选密码算法的密钥空间中随意选择),并用该密钥对任意选择的自然语言(比如网上能获得的所有文字资料)进行加密,然后得到相应的密文。如果该密文是用加密算法E(i)获得的,那就对该段密文标记为E(i)。换句话说,只要有足够多的自然语言库和算力,我们就完全可以得到足够多的带有清晰标识的有监督训练数据,当然也就可以最终训练出一个能够轻松判别加密算法的判别器P。即,当你在实战获得了一段密文后,你只需要将该段密文输入判别器P,它就能立即输出某个E(i),从而判断出该段密文是哪种加密算法的加密结果。
对密码界人士来说,以上判别器的难点是获得足够多的自然语言,而这刚好是百度、腾讯、DeepSeek和OpenAI等公司的现成之物。另外,训练以上判别器P的算力需求远远小于最近李飞飞花50美元、使用16张英伟达H100GPU、耗时26分钟训练的名为s1-32B的模型。
四 密码算法设计的新手段
由于这项工作在国际上已经开始且影响巨大,以至尤瓦尔·赫拉利的新作《智人之上》也用了不少篇幅来论述该项工作,所以此处就不赘述了。有兴趣者,可密切关注国际新动向。
概括说来,其思路就是训练一个生成对抗网络(GAN),让其中的生成模型在没有任何限制的条件下自行完成加密和解密工作,同时也让其中的检测模型来试图破译对方的密码。经过足够长时间的自我进化后,也许就能获得全新的加密手段,以至它能对抗人类已知的所有破译方法。
此种方法所获得的加密手段可能既非序列密码也非分组密码,甚至可能是某种完全无法用数学工具来描述的密码。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-4-28 12:20
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社