学习周报
姓名 | 郝丹萌 | 时间范围 | 2025.6.23-2025.7.14 | |
周次 | 第二十周 | 研究方向 | 大模型高效参数微调 | |
本周完成工作 | 1.阅读论文《FINE-TUNING WITH RESERVED MAJORITY FOR NOISE REDUCTION》 2.学习python语言编写代码。 3.看python网课。 | |||
本周 问题汇报 | ||||
下周工作计划 | 1.阅读最新微调方向相关论文。 2.学习python代码。 |
这篇论文针对大型语言模型(LLMs)参数高效微调(PEFT)中的关键问题展开研究,特别是LoRA及其变体在微调过程中存在的问题:
LoRA微调的局限性:虽然LoRA因其低训练成本和零推理延迟而广受欢迎,但随着LoRA秩的增加,不仅注入了知识特征,也引入了噪声幻觉,阻碍了可调参数的有效利用。
参数冗余问题:研究发现LoRA参数中存在显著冗余,这些冗余在不同层和模块中表现出不同的模式。
重新审视LoRA微调:通过大量实验揭示了由于引入冗余特征导致的低参数利用率问题,提出了PREFT这一新型微调框架。
推理时的自适应噪声减少:在PREFT框架内提出了NoRM方法,通过Sim-Search算法识别与基础权重最具亲和力的最相关组件。
全面评估:在通用指令调优、数学推理和代码生成等多个领域严格评估了NoRM,证明其优于现有PEFT方法和替代PREFT方法。
Parameter Redundancies Fine-Tuning(PREFT)框架:
遵循标准的LoRA调优流程
在将LoRA参数合并回预训练模型之前减少冗余
目标函数:argmax M(x|{Wᵢ}ᵢ=1ᵖ,{ΔW'ᵢ}ᵢ=1ᵖ)
Noise reduction with Reserved Majority(NoRM):
使用随机奇异值分解(SVD)将LoRA参数分解为多数部分和冗余部分
通过Sim-Search方法确定主要组件,该方法利用子空间相似性确认与基础权重共享最高相似性的参数组
基础模型:Llama3-8B-Instruct、Qwen2-7B-Instruct和Mistral-7B-v0.3-Instruct2
对比方法:LoRA、DoRA、LoRA+、MoRA作为PEFT基线,TAIA作为PREFT基线
评估任务:通用指令调优、数学推理和代码生成
通用指令调优:NoRM在不同预训练模型上普遍表现最佳,平均比最佳PEFT方法高出4.67分,比强大的PREFT方法TAIA高出1.63分。
数学推理和代码生成:NoRM在所有基线上都取得了最高性能,比LoRA提高了5.31分,比TAIA提高了2.73分。
参数冗余分布:
中间层的最佳性能通过中等丢弃比例实现
上层和下层通常需要较大的剩余比例
{q_proj, k_proj, v_proj}的参数丢弃带来较小的性能提升
{o_proj, gate_proj, up_proj, down_proj}的参数丢弃促进进一步的性能改进
NoRM的优势:
从更大的秩中获益,而普通LoRA通常在更大的秩上获得较低的性能
遗忘更少,学习更多:在WikiText-103测试数据集上,NoRM调整的模型表现优于LoRA和基础模型
减少了预训练权重已经强调的方向的放大比率
随着LoRA秩的扩大,性能增益较小
目前仅将NoRM应用于推理预处理阶段
将NoRM扩展到全微调场景
开发自适应维护策略,自动为特定提示选择最合适的组件
研究如何在训练阶段引入NoRM
转载本文请联系原作者获取授权,同时请注明本文来自郝丹萌科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3622922-1493963.html?mobile=1
收藏