科学网-大模型怎么才叫“成了”？百度王海峰详解技术进阶

切换到桌面版

大模型怎么才叫“成了”？百度王海峰详解技术进阶

2024-11-13 20:39

来源：中国科学报微信公众号

文｜《中国科学报》记者赵广立

11月12日，上海，百度世界大会2024的现场迎来了3位神秘嘉宾——中国国家跳水队的奥运冠军全红婵、陈芋汐和曹缘。

他们是来分享百度人工智能（AI）技术使用体验的。每年的百度世界大会都会分享过去一年百度在技术创新方面的最新成果。但今年似乎有些不同，大会主题非常鲜明，只有4个字“应用来了”。

这指的当然是大模型。用百度创始人李彦宏的话说，它代表了百度“对大模型和生成式AI当下的认知和判断”。

全红婵等国家队队员都谈到了一点：奥运赛场上的“水花消失术”，背后有AI系统和大模型的一份功劳。

王海峰在百度世界大会2024上。

大模型怎么才叫“成了”？

早在2019年，百度就和中国国家跳水队开展技术合作，研发智能跳水辅助训练系统，为运动员科学训练提供技术支撑。具体而言，针对运动员从起跳到入水的1.8秒，智能辅助训练系统采用云、边、端一体化技术，自动识别、跟踪、采集、分析每一个跳水动作，并实时反馈到教练手中的“平板”上，进而对运动员的姿势、动作等进行针对性指导。

此外，基于文心大模型，系统还可以给动作实时打分、进行精准量化分析、制订训练计划，并对运动员身体数据进行全面管理和科学评估，助力科学高效训练。

全红婵（右2）、陈芋汐（左2）、曹缘（右1）与王海峰同台分享。

这就是全红婵口中的“（百度AI）真是太全面了”。她在台上感慨：“‘巴黎周期’我长高、变重了，做动作的感觉和之前不一样，这套系统可以多角度还原我的动作。每一跳结束后，教练都会给我看，同时也能和之前的动作做对比，看看差别在哪里，帮我把动作完成得更好。”

百度与中国国家跳水队的技术合作是当前大模型技术应用落地的一个缩影。百度世界大会2024活动设置在上海世博中心，《中国科学报》在现场看到，包括各类智能体在内的上百个大模型产业应用，占满了超过5000平方米的超大展区，覆盖金融、能源、教育、招聘、公共服务等各个领域。

“以大模型为代表的AI技术已经深入千行百业，深入人们的工作、学习和生活。”百度首席技术官王海峰在现场披露，目前文心大模型的日均调用量已经超过15亿，文心一言的用户规模达到4.3亿。

今年4月，文心大模型的日均调用量是2亿。半年多实现这样的增长，李彦宏称“超出预期”。

“大模型怎么叫‘成了’？当日均应用程序接口（API）调用量一年涨10倍的时候，我认为就是成了，说明大家都需要。”李彦宏说，调用量涨幅如此之大的背后，是文心大模型不遗余力升级进化、降本提速的过程，更是紧贴需求、不断发现问题并解决问题的过程。

《中国科学报》结合以往公开信息了解到，自去年3月16日文心一言发布以来，百度文心大模型仅公开报道的升级次数就达5次。王海峰说，这期间，知识增强、检索增强以及智能体等技术不断进化。

“幻觉消失术”：检索增强技术持续进步

技术的进步，让一些问题变得不那么成问题。比如，大模型的“幻觉”问题。

“如果你问我，过去这24个月，对行业而言最大的变化是什么，那我的回答一定是——大模型基本消除了幻觉，回答问题的准确性大大提升了。”李彦宏说，这让AI从“一本正经的胡说八道”变得可用、可信赖。

百度的“幻觉消失术”是什么？答案是检索增强技术的持续进步。王海峰介绍，在检索增强方面，百度研发了“理解-检索-生成”协同优化的检索增强技术，提升了大模型技术及应用效果。

相比文字幻觉，图片幻觉更为棘手。王海峰说，面向不同应用场景的生图需求，百度进一步研发了检索增强的文生图技术，既可以生成精确的图片，也可以进行泛化生图。

大模型是如何做到的？他解释说，大模型先基于用户的需求进行分析理解，自动规划精确或泛化方案，比如需对哪些实体进行增强；接着在增强阶段，对需要增强的实体，检索并选择相应的参考图。等到了生成阶段，百度通过自研的多模可控生图大模型，一方面，通过局部注意力计算，在保持实体特征不变的情况下，实现图像的高泛化生成，比如根据牛顿的肖像，生成绘本风格的牛顿；另一方面，通过整体注意力计算，进行高精确的图像生成，比如生成图中的汽车跟原图片完全一致。

“在实际应用中，这个方法支持用户上传参考图，按用户期望进行生成。”王海峰说，通俗地讲，当采用了检索增强技术后，大模型会利用检索到的信息“指导”文本或图片等答案的生成，从而大幅提高生成内容的质量和准确性。

多智能体协同：“智”多力量大

放眼望去，当前大模型应用的“集散地”是智能体。李彦宏提到，智能体是AI应用的最主流形态，“即将迎来它的爆发点”。

“智能体可能会变成AI原生时代内容、信息和服务的新载体。”李彦宏说，这背后有两个原因，一是在基础大模型不断突破的基础上，智能体的门槛越来越低；二是智能体的天花板足够高，可以做出功能强大的应用。特别是多个智能体的协作，可以解决非常复杂的问题。

王海峰介绍说，百度于去年10月发布了智能体机制，并研制出能够可靠执行、自我进化的“系统2”，其核心是思考模型，这使大模型能够像人一样思考和行动，同时在环境中持续学习、自主进化。

正如“人多力量大”，智能体也需要“协作”以完成更复杂任务。王海峰以百度发布的“秒哒”和“文心快码”为例，介绍了多智能体在代码场景里的巧思妙用。

秒哒不是辅助代码生成工具，而是百度最新开发的一款“不需要写代码就能够实现任意想法的软件”。在大会现场，李彦宏将秒哒的功能演示作为“压轴节目”，呈现了如何借助它将“制作一个活动邀请系统”的想法，在几分钟之内变为现实的过程。

王海峰介绍说，秒哒采用了智能体的中心化模式，其中的代码智能体通过场景知识的增强，提升了复杂代码生成的质量与稳定性，高效实现用户需要的功能。比如在前述演示案例中，主智能体将任务拆解成需求确定、内容生产、工程开发3个步骤，其他4个智能体分别扮演了策划、小编、程序员、质检员的角色，协作完成主体任务。

同样，在“程序员的AI同侪”——文心快码的使用中，多智能体的流水线协同作用于功能开发、代码测试和问题修复等环节，大幅提高程序员的工作质量和效率。

在技术持续升级的背景下，大模型应用于产业的门槛逐渐降低。

王海峰介绍，面向产业需求，百度打造了文心大模型矩阵，包括ERNIE 4.0 Turbo等旗舰大模型、ERNIE Speed等轻量模型，以及基于基础模型生产的系列思考模型和场景模型，以满足不同应用的需要。在这背后，文心大模型和飞桨深度学习平台的联合优化、持续创新，提升了模型效果、训练效率和推理性能，支撑了文心大模型的广泛应用。

截至目前，飞桨文心开发者数量已达1808万，服务了43万家企业，创建了101万个模型。在现场，百度还公布了AI人才培养的最新数据——已为社会培养了592万AI人才。

“相信大家非常关心基础大模型的进展。我可以很笃定地告诉大家，文心大模型仍在持续训练中，敬请期待更强大的新版本。”王海峰最后说。

分享到:

一周排行

千吨级离子液体法再生纤维素纤维项目正式投产

中国科学院团队揭示：人类大规模用火始于约5万年前

论文发表后，为何效果达不到预期？