Ouariel的个人博客分享 http://blog.sciencenet.cn/u/Ouariel

博文

从RAG到SAGE: 现状与展望

已有 668 次阅读 2025-7-15 15:12 |系统分类:博客资讯

引用本文

 

田永林, 王雨桐, 王兴霞, 杨静, 沈甜雨, 王建功, 范丽丽, 郭超, 王寿文, 赵勇, 武万森, 王飞跃. RAGSAGE: 现状与展望. 自动化学报, 2025, 51(6): 11451169 doi: 10.16383/j.aas.c240163

Tian Yong-Lin, Wang Yu-Tong, Wang Xing-Xia, Yang Jing, Shen Tian-Yu, Wang Jian-Gong, Fan Li-Li, Guo Chao, Wang Shou-Wen, Zhao Yong, Wu Wan-Sen, Wang Fei-Yue. From retrieval-augmented generation to SAGE: The state of the art and prospects. Acta Automatica Sinica, 2025, 51(6): 11451169 doi: 10.16383/j.aas.c240163

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c240163

 

关键词

 

大模型,检索增强生成,基础智能,知识自动化 

 

摘要

 

大模型技术的兴起显著提升了人们获取和利用知识的效率, 但在实际应用中仍然面临着知识受限、迁移障碍和幻觉等挑战, 阻碍了可信可靠人工智能系统的构建. 检索增强生成(RAG)通过利用外接知识库和查询关联的检索有效增强大模型的能力水平, 为大模型掌握实时型、行业型及私有型知识提供有力支撑, 进而促进大模型技术向多样场景的快速推广和实施. 围绕RAG, 阐述其基本原理、发展现状及典型应用, 并分析其优势和面临的挑战. RAG的基础上, 通过结合搜索模块和多级缓存管理模块, 提出RAG的拓展框架SAGE, 以建立更加灵活和高效的大模型知识外挂工具链.

 

文章导读

 

Transformer[1]、深度强化学习(Deep reinforcement learning)[2]、扩散模型(Diffusion model)[3]等算法技术、分布式训练等大算力技术以及规模法则(Scaling law[4])驱动的大数据技术的协同促进下, 大语言模型(Large language model, LLM)及基础模型(Foundation models)已经在内容创作[5]、自动驾驶[6]、机器人[7]、医疗[8]等领域展现出广阔的应用潜力[9]. 大模型所具备的高理解力和强泛化性极大地促进生产方式的变革, 以大模型为基础的科研和产业创新生态得到密切关注. 然而, 随着通用大模型在实际场景的应用加深, 其不足之处也逐渐显现, 具体而言, 主要包括以下几点

1) 知识受限. 大模型的能力受限于其训练过程使用的数据集, 在训练完成后知识将固定下来, 无法对实时知识和新专业领域知识进行有效掌握. 例如, 基于GPT3.5ChatGPT的知识更新截止至20219[10], 虽然可以通过后期升级更新知识库(GPT4 Turbo的知识库更新至20234[11]), 但即便如此, 仍然难以满足用户对最新知识获取的需求[3, 12]. 此外, 诸如ChatGPT之类的通用大模型对垂直场景和私有领域知识的掌握能力不足, 导致其难以直接在专业应用和个性化任务中取得理想效果[13]. 

2) 迁移障碍. 通用大模型向专用领域迁移时面临成本和技术障碍[14], 并存在灾难性遗忘等问题[15]. 通用大模型可以借助微调和提示工程实现能力迁移, 但前者需要使用者构建数据和算力平台, 从而带来一定的技术和资源障碍, 而且存在较大的隐私泄露风险; 后者虽然可以通过零样本学习的方式实现能力快速迁移, 但存在着上下文窗口长度受限的问题. 虽然目前部分模型已经支持数十甚至上百万token的超长上下文, 却仍然难以满足大规模的信息注入需求, 而且在面对大海捞针” (Needle in the heystack 1)的压力测试任务时, 基于长上下文的大模型在提取相关信息方面也面临着准确性和效率的挑战[16]. 

3) 幻觉. 大模型产生与事实、用户指令、上下文等不一致的答案的现象称为大模型幻觉. 这种情况时有发生, 并给大模型走向实际应用, 尤其是一些安全敏感场景, 带来较大阻碍[17]. 

 

检索增强生成(Retrieval-augmented generation, RAG)的提出为解决通用大模型在实际应用中存在的上述问题提供了思路[18]. 它通过接入外部知识库为大模型提供必要的信息支撑, 并借助信息检索技术获取与用户指令或查询相关的上下文信息, 实现对原始查询及提示的扩充, 进而增强大模型的生成过程. RAG技术显著改善大模型能力, 为推动大模型走向实际应用产生积极作用. 为此, 本文从关键技术、典型应用、开源平台以及新架构四个主要方面对RAG技术进行全面综述. 作为对比, 本文在表1中总结现有的RAG综述文章[12, 19−23], 从中可以看出, 现有的综述文章虽然涵盖RAG技术中的检索和生成部分, 但对知识库构建方法的介绍仍然不足. 此外, 当前综述侧重RAG在自然语言处理(Natural language processing, NLP)领域的应用介绍, 对计算机视觉(Computation vision, CV)以及垂直领域(医学、法律、自动驾驶)中的应用尚未进行充分讨论, 同时缺乏对开源RAG平台的总结. 为此, 本文在上述方面进行针对性介绍, 以对现有文章形成补充. 本文涵盖数据库构建、检索优化方法以及内容生成方法, 形成针对RAG技术的完整技术介绍. 同时, 本文总结RAGNLPCV以及垂直领域(医学、法律、自动驾驶)中的应用, 并首次汇总热门RAG开源平台. 此外, 本文给出用于提升检索效率和开放性的新型架构. 本文组织结构如下: 1节介绍基础型RAG系统(Navie RAG[20])的架构; 2节对其关键技术进行分析和综述; 3节介绍RAG在语言、视觉等通用领域以及医疗、自动驾驶等专用领域的应用; 4节给出基于搜索和多级缓存架构的拓展式检索增强技术的架构; 5节总结全文并对RAG优势和挑战进行展望

 1  基础型RAG的框架

 2  RAG关键技术

 3  DenseX Retrieval方法的框架

 

本文总结了大模型在知识获取和更新方面存在的问题, 围绕检索增强生成方法介绍其基本架构以及关键技术改进方法, 并通过LLM和多模态大模型两个方向介绍其应用现状. 检索增强生成技术的灵活性、可解释性、隐私安全性和成本优势, 使其成为打造行业或私人专属大模型的有效支撑手段. 为方便读者阅读4总结了本文出现的术语. 未来, 伴随着数字人和机器人技术的发展, 检索增强生成方法有望进一步强化多元化场景下的专用智能提升, 打造生物人、数字人及机器人协同的平行人体系, 赋能智业时代的生产力提升. 本节将对RAG技术的优势和存在的挑战以及RAG技术潜在研究方向展开分析

 

作者简介

 

田永林

中国科学院自动化研究所多模态人工智能系统全国重点实验室助理研究员. 2022年获得中国科学技术大学控制科学与工程专业博士学位. 主要研究方向为平行智能, 自动驾驶, 智能交通系统. E-mail: yonglin.tian@ia.ac.cn

 

王雨桐

中国科学院自动化研究所多模态人工智能系统全国重点实验室副研究员. 2021年获得中国科学院大学控制理论与控制工程专业博士学位. 主要研究方向为计算机视觉, 智能感知. E-mail: yutong.wang@ia.ac.cn

 

王兴霞

中国科学院自动化研究所多模态人工智能系统全国重点实验室博士研究生. 2021 年获得南开大学工学硕士学位. 主要研究方向为平行智能, 平行油田, 多智能体系统. E-mail: wangxingxia2022@ia.ac.cn

 

杨静

中国科学院自动化研究所多模态人工智能系统全国重点实验室博士研究生. 2020年获得北京化工大学自动化专业学士学位. 主要研究方向为众包, 平行制造, 社会制造, 预训练语言模型和社会物理信息系统. E-mail: yangjing2020@ia.ac.cn

 

沈甜雨

北京化工大学信息科学与技术学院副教授. 2021年获得中国科学院自动化研究所博士学位. 主要研究方向为智能感知与智能无人系统. E-mail: tianyu.shen@buct.edu.cn

 

王建功

中国航空系统工程研究所工程师. 2023年获得中国科学院自动化研究所博士学位. 主要研究方向为大模型, 计算机视觉, 航空工程. E-mail: wangjg055@avic.com

 

范丽丽

北京理工大学信息与电子学院博士后. 2022年获得吉林大学博士学位. 主要研究方向为计算机视觉, 跨模态感知与理解, 类脑认知与决策. E-mail: lilifan@bit.edu.cn

 

郭超

中国科学院自动化研究所助理研究员. 主要研究方向为人工智能艺术创作, 人机协作, 智能机器人系统, 机器学习, 强化学习. E-mail: chao.guo@ia.ac.cn

 

王寿文

澳门科技大学创新工程学院智能科学与系统专业博士研究生. 主要研究方向为智能系统和复杂系统的建模、分析与控制. E-mail: 2109853pmi3004@student.must.edu.mo

 

赵勇

国防科技大学系统工程学院博士研究生. 2021年获得国防科技大学控制科学与工程专业硕士学位. 主要研究方向为群智感知和人机交互. E-mail: zhaoyong15@nudt.edu.cn

 

武万森

国防科技大学系统工程学院博士研究生. 2018年获得国防科技大学学士学位. 主要研究方向为视觉语言多模态, 机器人. E-mail: wuwansen14@nudt.edu.cn

 

王飞跃

中国科学院自动化研究所复杂系统管理与控制国家重点实验室研究员. 主要研究方向为智能系统和复杂系统的建模、分析与控制. 本文通信作者. E-mail: feiyue.wang@ia.ac.cn



https://wap.sciencenet.cn/blog-3291369-1493775.html

上一篇:《自动化学报》2025年51卷6期目录分享
下一篇:数据驱动自适应评判控制研究进展
收藏 IP: 222.131.240.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-7-17 09:24

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部