科学网-让大模型应用真正飞起来（讲座回顾整理-黑盒测评与白盒测评的碰撞前奏）-段玉聪的博文

切换到桌面版

让大模型应用真正飞起来（讲座回顾整理-黑盒测评与白盒测评的碰撞前奏）

2025-2-14 09:19

阅读：786

让大模型应用真正飞起来

（讲座回顾整理-黑盒测评与白盒测评的碰撞前奏）

杨磊，清湛人工智能研究院院长

大家好，大家好！

我的演讲题目是想要让大模型应用真正飞起来。因为前面几个老师讲的都非常精彩，都是珠玉在前，所以我也比较晚了，就快速把我围绕着大模型应用的一些想法跟大家汇报一下。

首先来讲，其实大模型应用，自2016年开始就开始做研究。实际上经过接近九年的发展，今年差不多是第九个年头，差不多从去年开始出现了爆发性的应用，在全球应用市场上已经实现了广泛落地。尤其是在软件生态上，基本上现在都是围绕着大模型的应用去落地、展开研究和部署。然后我们也看到了市场上有很多报告和数据，这些数据表明大模型应用的增长率、负荷和穿透率都非常高。

所以，在过去两年里，我们也做出了一些工作。包括我们做了一些围绕着大模型的知识管理，在工业领域里，包括基于大模型的内容监测、内容检查、内容生成，还包括校对机制。我们这个团队其实主要是做工业的。然后在这里面，我们也围绕着大模型的研发，比如说服装制版生成等等，也做了很多工作。但是在这里面，我们还有一块业务，就是今天和话题相关的，就围绕着基于RAG技术的大语言模型的应用评测。

然后我们可以看到，现在围绕大模型应用落地的项目非常多。去年经过统计，大概走招投标的信息的话，项目有2500个大模型应用的招标信息发出来了；再加上一些非招标应用的落地，实际上去年大概有三四千个项目，预计今年大概有5000到6000，甚至上万个围绕大模型应用落地的项目。但这个大模型应用落地普遍存在一个问题——我截了今日头条的一篇文章，标题是“RAG一周出demo，半年上不了线”。就现在整个大模型应用落地市场实际上存在一个见光死的局面，大家都很热衷去下APP、聊聊天、做一些搞笑的东西，但如何把它真正应用到实际生产生活中，这就非常困难了。因此，我们团队在实际工作中也遇到了很多类似的事情：这里面包括知识缺失、我们这种大模型检测查不到东西，还有抽取或者校对等的准确性比较差等等，这些问题我们团队都遇到过。

有典型的一个故事就是：前期前面有一个应该是湖南卫视推出的项目，围绕着大模型，他们当时用ChatGPT算了一个分数，然后整个排行榜的顺序，把孙楠和另外一个歌手的分数顺序写反了。然后在大模型应用市场上，还有另外一个比较搞笑的例子，就是美国的律师事务所，有一位律师用ChatGPT生成了法律文书，结果这个法律文书其实是不存在的，他还引用了六个案例到法庭上，法院发现了这些错误案例，就罚了他一笔钱。这是大模型历史上第一次律师用模型生成文档而出事故的案例。

在整个学术圈和技术圈里，其实围绕着大模型安全的问题也做了很多工作。前面刚才那个段老师（段玉聪教授）其实介绍了很多这方面的事情，我就简单补充一下。其实我们刚才讲的都是围绕着智能展开的，我们包括前面几个老师也都提到，其实大模型的努力方向是希望提供一个更聪明的应用系统。因为这里代表了几个问题：我们如何评价一个软件是否够聪明？例如，我们评价一个孩子很聪明，可能问他什么他能不能答得基本正确，比较搞笑；但如果问一个三岁的孩子、一个十岁的孩子、一个20岁成年人、一个50岁的成年人，其评价标准其实在不断变化。而我们在这里可以看到，其实大模型的安全性，我们在评价它时也存在很多不同角度。

在右边这篇文章里，大模型的安全性问题被提出来了一套，这是天津大学去年前一阵子发布的一篇文章，文章围绕大模型的安全性进行了梳理，包括它的幻觉、偏见、对抗攻击、滥用风险等等。最有趣的是左边这篇文章讲了Deepseek，也就是我们现在这个Deepseek R1。文章对比了OpenAI的O3 mini（O3 mini属于OpenAI性能比较差的一部分），得出的结论是：从模型安全性角度来看，大概Deepseek R1比O3 mini差十倍左右。当然，其实这个例子，左下角那个例子，我昨天又试了一下，Deepseek发现那个错误已经修改过来了。所以说我们可以看到，其实整个模型市场上，无论是Huggingface上的数万个模型，还是其他各类模型，大家围绕着模型的安全性或模型智能方面，每天都在不断更新工作。

接下来，我们再回顾一下OpenAI，因为这是大家最熟悉的竞争对手。OpenAI在上线前，有一个很大的团队专门围绕安全性测试做工作，每个版本上线之前，围绕安全测试都要花数百万美金。我查了最新的，这个版本大概花了三百多万美金。还有很多第三方公司与他们合作，包括很多著名的安全红队，比如阿波罗、汇天等等。而且OpenAI还会找很多第三方专家进行评测，比如武器专家、生物安全专家、医学专家，他们会组成红队对系统进行攻击，评价模型的可靠性和安全性。有兴趣的可以到欧洲官网上查看，其上有一个专门的栏目“safety”，详细描述了OpenAI如何测试、谁测试、怎么测试。OpenAI的测试覆盖了很多方面，包括危险建模、风险评估、各种有毒数据的侵入等等。大家有兴趣可以到官网上看。

但是，我们可以看到整个模型的安全性实际上还是面临着巨大挑战。因为公众对这个模型的要求其实非常高，既要又要更要，没有止境。但是模型本身的能力还需要不断提升。就刚才段教授（段玉聪教授）举的那个例子，他做的测试可能观众就会问，为什么Deepseek的排名没有那么高？我相信可能在一天之后，那些数据会有所改善。但这两天，每个模型都在不断进步，数据会自然下降。

所以我们可以看到，在落地时，企业需要的东西和模型本身是不一样的。企业需要的是围绕专业领域来做事情，而这里面存在一个现实问题，就是所有模型都是知识不足的。就像我们在清华毕业的学生、北大毕业的学生、上海交大毕业的学生出来，并不是无所不能、无所不知。其实，每个岗位都需要不断学习专业知识，这和模型本身一样。我们学通用知识在学校里可以考100分，但并不意味着到垂直行业里就马上可以干工作。所以现在的做法就是大家通过RAG方式来解决问题。当然，还有智能微调等等。但我们可以看到，随着RAG技术成熟，从成本、性能到软件工程的可持续性上，RAG的效果远远超过了微调的效果。

接下来，讲一下企业级的大鹏信用构件。在过去两年里，这个构件也发生了很多变化，包括在企业应用中增加了很多组件。最早的RAG技术只是一个简单的解锁机制，把所有文档进行embedding，矢量化后存入数据库中进行抽取；到了第二阶段，就是高级RAG，为了提升生成水平和检索成功率，我们增加了预检索、后检索等等技术。现在实际上在RAG技术里，我们不断增加新的模块，使得RAG与大模型结合后展现得越来越复杂、功能越来越强。而且现在不仅仅有文本的RAG技术，还出现了很多，比如我在PPT上发布的基于视觉的RAG技术，就是不仅可以通过RAG技术检索文本，还可以检索图像和视频。这就意味着，原先的通用模型，比如CLIP这类视觉模型，如果希望效果更好或专注于垂直领域服务时，经过简单的工作后就能马上落地。下面举的几个例子，也是把视频和图像数据通过混合编码方式存入数据库中，就可以快速获得所需结果。所以我们可以看到，RAG技术在过去两年里，伴随着大模型应用落地，实际上已经有了长足的发展。据技术圈预测，未来RAG可能会成为围绕大模型应用落地的核心技术，至少从目前来看，它比其他技术要好得多。

但是我们也看到，这种技术本身也存在着很大的技术风险，不过它与传统大模型的风险不同。它的风险来自于RAG技术本身，包括检索数据源的安全性问题。我们的数据可能是通过面向本地应用新增进来的，而我们不可能像OpenAI那样花几百万美金去调试一个系统。而且我们的知识数据每天都在不停填充或迭代版本，这意味着数据被攻击的可能性，或者数据中毒的可能性，比传统大模型技术要高一些。

还有一个就是检索过程，包括生成过程和用户数据输入过程中，都可能存在问题。因为在实际工作中，我不可能对客户回答“你问题我回答不了”，否则客户肯定不能接受系统的交付。所以在围绕基于RAG的大模型应用上线过程中，我们要做大量准备。

这里面就有一个理念，如果做软件工程的人可能都比较熟悉黑盒和白盒测试理论。正如那位提出黑盒白盒理论的人所言，由于缺乏测试失败的软件项目，比任何其他原因导致失败的项目都要多。回想到现在我们基于大模型应用落地的时候，如果在座的有软件工程师做这方面的功课，你可以看到成本问题。尤其在围绕RAG应用落地时，我们基本上缺乏工具、理论和数据，基本都是靠自己测试，或者让客户自己去感受，再判断项目是否达到标准。这就是整个行业面临的最大风险：前面讲的“RAG demo一周做完，但是离落地遥遥无期”。

但事实上，我们可以看到，对大模型（大元模型）的评估和基于RAG大模型应用的评估其实是两个相辅相成、既相同又不同的领域。因为在实际的软件工程中，我们的RAG应用是面向特定场景的，这意味着需求不仅仅是针对基础模型的一些客观评价，还包含面向实际落地场景的一些评价。比如，在RAG应用中，我更关注的是解锁效果：我是不是每次对话中都能得到我想要的答案？如果我用OpenAI或者是Deepseek去问一个问题，如果它回答“我不知道”，那可能无所谓；但如果是工作系统，问了几句却连回答都不给出，那就意味着供应商或软件开发商的工作可能有问题。所以，从这个角度来看，大语言模型的评估就正如段老师（段玉聪教授）和段玉聪院士（段玉聪教授）所讲的那套相关理论和我们现在讨论的RAG大语言应用评估，是既相似又不同的两个领域。

还有一个观点就是，大语言模型软件应用的评测和普通软件评测也是不同的。传统软件交付只是一段代码，而大模型软件评测不仅交付代码，还交付模型。这就意味着整个调试过程复杂度会更高。其次，大模型的训练成本高、推理成本也高，要将其运行起来，需要相应的硬件、软件和人员素质都很高，导致在缺乏环境和工具的情况下，做出一份优秀评测报告就异常困难。

还有一个观点，就是最近比较流行的“把大语言模型作为法官”的说法。因为像OpenAI这样的公司，每个版本发布之前会花数百万美金请红队攻击系统，甚至找第三方公司进行测试。但这种方法依赖于红队成员必须非常专业，他们不仅对当前领域非常了解，而且对其垂直领域的问题评判也绝对正确；而现实中，我们很难找到这种专家级的人物陪同每一个小项目。因此，我们提出另一种办法——基于大模型本身进行应用评估。LLM Judge利用大模型作为反方，优点在于能在评估过程中获得恒定的质量，同时可以针对大模型应用系统提出上千条、甚至上万条对话测试，不会像请专家那样需要耗费几天几周时间进行客观评价。如今，LLM只做当前应用评价已经逐渐成为一种潮流。最近英伟达也发布了一套新的工具链，通过IOS模式进行技术趋势分析。

其实，LLM与大模型应用评测需要解决几个关键问题：

生成内容的准确性——例如生成PPT或文档时，必须准确表达要求，不能胡说八道，因为如果面向老板交文档、投标，内容不准确就无效。
生成内容与答案的相关性——比如原本有十篇文章，但只总结出两篇，肯定不够。
检索的成功率——包括上下文的精度和召回率，必须确保能检索到回答所需的所有相关信息。
推理能力——传统语言模型只能获得浅层信息，而我们期望大模型能够进行深层次推理，例如我知道一加一等于2、二加二等于4，那你能不能告诉我三加三等于几？这是我们对大模型应用评测的主要任务之一。

从评测流程上来说，这也是五花八门的，因为我们首先要定义系统的用途。例如，我们是做医疗的（正如前面那位老师提到的），医疗领域可能相对容易，但也更难落地，因为要求的准确性和数据库数据来源要求更高。其次，评测过程中还涉及如何准备数据，因为看似每天都有大量数据，但实际上我们能用到的数据非常有限。第三，我们如何评价？就像上学时老师每天的课堂测验、月末测验、期中和期末考试一样，老师不断看学生是否学到了足够的知识。但在大模型评测中，问题更复杂，因为评价一个大模型的智能可能需要一个多维度量化表，我们的评价维度非常多，而且现实问题环境更加复杂。我们团队最近总结了过去两年中围绕AGI和RAG测试的50篇论文，归纳出27大类测试维度，包括检索质量、生命质量、复制性、鲁棒性、安全性、可解释性等等，而且每个检测指标的评测公式也是五花八门的。

因此，从核心评测维度来说，评价一个模型是否聪明或者好，这实际上是一个几十维的数据空间，这意味着每次评价都至少需要数万条数据才能获得一个结果。从评测过程中，我需要准备数据、评估实验方法，获得反馈，甚至希望通过反馈报告知道该修改哪个地方。

从整个模型应用特征来看，与传统软件相比更为复杂。传统软件平台可以精确定位出哪一句代码、哪一处逻辑出错；而在大模型应用落地时，评测过程极其复杂，很难在几十万或几百万条数据中找出哪一条有毒数据导致系统性能下降，这就是我们在大模型应用落地时面临的巨大痛点。

但好在，我们现在也遇到了很多有识之士。比如lang提供了一些简单的工具，Long也围绕文档问答、半截规划报告做出了一些评测工具；还有一些第三方企业也提供开放的数据库，如新闻数据库、维基百科数据库，但这些中英文数据资源存在不平衡，中文数据较少，而大部分都是英文的。正如前面一位老师所问，我们能不能用中文逻辑训练模型？那问题就来了——训练模型的数据从哪儿来？

还有比较著名的框架，比如IRES——RAG的自动评估系统。它运用了很多自动化技术，包括刚才提到的LLM Judge模式，同时提供了相应的数据集；还有一些方法，比如“多跳”概念：我有十本书，不是每本都翻译，而是每本书中抽几个问题组成一套综合答案，这使得评测过程更为复杂，需要对整个文本的理解做特殊处理。还有国内的一篇论文（小扣的那篇），其特点不仅仅围绕着RAG的创建、读取、更新，还增加了删除模式，使整个RAG应用任务评测更为复杂，更接近真实应用场景。

另外，一个比较有名的是对RAG模型的有毒攻击。实际上，我们很难理解一个语言模型“中毒”是怎样的情况：可能有1万条数据中，只有一条数据格式发生了变化，比如多了一个逗号，这个小变化就可能导致有毒，从而在模型测试或训练过程中，数据准备不充分就会出现问题。这和传统机器学习一样，是一个非常困难的过程。因此，通过提出一些新方法，对数据有效性进行测试，能在模型微调或RVD过程中取得较大提升。

我们团队现在也在做一个类似的系统，围绕这块花了很长时间去总结，应用了前面很多方法，提升了许多相关评价指标。我们也收集了海量数据，目前收集了九大类、24种基础数据。当然，实际上我们要面向垂直行业客户做定制化数据，这是一项非常辛苦且难度很高的任务。

我最后总结一下：其实前面几位老师也讨论过，AJI马上要来了。其实我持相反观点，我个人比较赞同杨立坤的说法，即我们不应该说AJI这个词，而是应该专注于“人类水平的人工智能”。因为去年OpenAI开始的时候，大家提AGI的时候，大家也知道AGI的火花其实并没有燃起火把、火炬，我们可以看到HI的希望，但并不是说HI能马上来临。因为人类智力、智能、聪明的定义本身在哲学上就是开放的，并非固定指标；还有一种观点认为现在大模型已经真正智能化，但大模型在未来20年回顾时可能只是一个更高级的数据库系统，其真正的推理和思考还有很长的路要走。

其次，我们实际上智能并不是万能解决所有问题的方法。至少我现在如果达到通用智能水平，能不能马上提供一套F45站内图纸，从科技上来说很难做到。而且，开玩笑讲，智商是衡量人类智力的标准，但与4万美元以上的资产基本上没关系，不见得智能之后就能为社会带来更好价值，所以有观点认为HAI是不可能的。

因为我们模仿人类大脑的智能，而我们其实对大脑一无所知，对整个脑科学的研究甚至连一只臭虫的脑子都没搞清楚，更不要说人脑了。所以在2009年的通用人工智能大会上，我们做过调研，当时在2019年的时候，绝大多数人的选择是“never”。因此，我认为我们团队认为在AGI没有来之前，RAG和MM大模型结合可能是当前较为有效的构建应用解决方案。也希望能够和各位一起努力，让AI真正落地。

谢谢大家！

转载本文请联系原作者获取授权，同时请注明本文来自段玉聪科学网博客。

链接地址：https://wap.sciencenet.cn/blog-3429562-1472985.html?mobile=1

分享到:

当前推荐数：1

推荐人：

刘跃

推荐到博客首页

网友评论0 条评论

该博文允许注册用户评论请点击登录