翟海涛
周报-10.24
2025-10-24 17:52
阅读:497

科研方面:

目前在single-hopmutil-hop数据集上的表现相对KVMerger还差一点,有的两个任务照H2OD2O想比也低0.2,目前正在跑LongBench上的整体的实验,打算看看其他数据集的效果,并且对自适应这部分仍在尝试其他算法,之前尝试的使用方差的方法不太奏效。

阅读论文:

ZSMerge: Zero-Shot KV Cache Compression for Memory-Efficient LLM Inference

ZSMerge 是一种零样本的动态 KV 缓存压缩框架,无需额外训练或微调即可在推理时压缩缓存。它通过三个关键操作(如基于注意力分数或 token 表征相似性的合并策略)来识别并合并冗余 token KV 状态。该方法特别适用于资源受限场景,能够在保持生成质量的同时大幅降低内存消耗。

算法流程如下:

ZSMerge 是一种无需训练的动态 KV Cache 压缩框架,其核心流程包含三个关键操作:  

细粒度冗余检测:在推理过程中实时分析注意力分数或 token 表征,识别语义或功能上冗余的 token; 零样本合并策略:基于检测结果,将相似 token 对应的 Key-Value 条目进行合并(例如通过加权平均或保留主导项); 动态缓存更新:在不改变模型参数的前提下,动态维护压缩后的 KV Cache,确保后续注意力计算在压缩空间中进行 。

实验效果:

ZSMerge 在长上下文任务中实现了 82% KV Cache 内存减少 和 3 倍吞吐量提升,同时仅带来可忽略的性能下降

 

 

除此之外,为了找工作,自己也做了一个项目来对口RAGRL的岗位:

针对复杂视觉文档问答任务中检索精度不足与推理过程不可控的问题,提出了一种基于多智能体协作与强化学习优化的检索增强生成框架。在 ViDoRAG 基线(主要贡献为构建 ViDoSeek 数据集并引入基于 GMM 的双模态检索)基础上,重构了系统架构:首先以 Qwen3-VL-7B 大模型替代传统 GMM 策略,通过融合图文特征生成高精度检索词,实现语义对齐的细粒度召回;进而设计包含 SeekerVerifierInspector Answer 四个角色的多智能体推理流水线,其中创新性引入 Verifier 智能体,专门对检索结果进行相关性判别与噪声过滤,确保输入知识的质量;为引导智能体高效协作,我们在 GRPO 强化学习框架下设计了融合结果正确性、流程规范性、信息增益与检索效率的多目标奖励函数,其中信息增益奖励借鉴 NDCG 思想,对每轮有效知识按轮次折损计分,鼓励早期获取关键信息,同时通过检索效率奖励防止模型采取冗余或低效的“微量多次”策略。最终系统在 ViDoSeek 数据集上显著优于现有方法,验证了该框架在提升复杂多模态推理准确性与效率方面的有效性。

转载本文请联系原作者获取授权,同时请注明本文来自翟海涛科学网博客。

链接地址:https://wap.sciencenet.cn/blog-3622929-1507322.html?mobile=1

收藏

上一篇
下一篇
当前推荐数:1
推荐人:
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?