PEFT 方法评测指南:不能只看下游分,通用能力损失也该被量化
从稳定性-可塑性权衡出发,系统评估参数高效微调的目标适配与能力保留
PEFT 方法评测指南:不能只看下游分,通用能力损失也该被量化
从稳定性-可塑性权衡出发,系统评估参数高效微调的目标适配与能力保留
参数高效微调(PEFT)已成为大模型适配的主流方法,但传统评测仅关注下游任务准确率,忽视了微调导致的通用能力损失。本文基于 PEFT-Arena 等最新研究,提出从稳定性-可塑性权衡视角重新审视 PEFT 方法,引入双轴评测框架,涵盖目标域性能与通用能力保留,并深入分析权重空间与激活空间的几何机制。同时结合不完全学习现象(ILP),介绍检测-归因-干预诊断框架,帮助开发者量化遗忘、优化微调策略。
引言
参数高效微调(Parameter-Efficient Fine-Tuning,PEFT)如 LoRA、Adapter 等,已成为大模型适配下游任务的主流选择。相比全量微调,PEFT 仅更新少量参数,训练成本低、部署灵活。然而,当前 PEFT 方法的评测几乎完全聚焦于下游任务准确率——一个方法在数学推理上提升了多少点,在医学问答上提高了多少分。
这种单一指标存在严重盲点:微调过程中,模型可能遗忘大量预训练阶段习得的通用能力,如指令遵循、事实回忆、常识推理等。一个在数学基准上表现优异的方法,可能同时削弱了模型回答日常问题的能力。这种“遗忘”被单一准确率指标完全掩盖。
本文综合近期研究,提出 PEFT 评测应同时量化目标适配与通用能力保留,并从稳定性-可塑性权衡(stability–plasticity trade-off)的角度系统分析不同 PEFT 方法的表现。我们还将介绍不完全学习现象(Incomplete Learning Phenomenon, ILP),揭示微调中样本级的学习失败,并提供诊断与干预框架。
传统 PEFT 评测的局限性
传统 PEFT 评测的核心问题是:微调后,下游任务准确率提高了多少?这固然重要,但大模型的应用需求远不止单一任务。预训练赋予了模型广泛能力,包括指令遵循、事实知识、阅读理解和通用推理。如果微调以牺牲这些能力为代价换取目标分数,那么单一准确率指标就会掩盖这一权衡。
PEFT-Arena:双轴评测框架
近期,来自香港中文大学、西湖大学等机构的研究者提出了 PEFT-Arena,一个从稳定性-可塑性权衡视角重新审视 PEFT 方法的评测基准。该工作已在 ICLR 2026 相关 workshop 展示,并开源了代码。
双轴评测设计
PEFT-Arena 设置双轴评测:
实验选用 Qwen2.5-7B 和 Llama3.2-3B-Instruct,在数学与医学推理两个目标域上分别进行监督微调(SFT)与基于验证奖励的强化学习(RLVR)训练。
二维评估图
PEFT-Arena 提供二维评估图:横轴代表通用能力(稳定性),纵轴代表目标域性能(可塑性)。理想方法位于右上角。
例如,在 Qwen2.5-7B SFT 数学实验中,全量微调大幅提升目标分数,但通用分数严重下滑;而 OFT 则取得了更均衡的结果。
RLVR 的特殊性
相比 SFT,RLVR 在主要评估设置下通常表现出更弱的通用能力遗忘;在某些设置中,它甚至能在提升目标任务的同时保持或提高通用分数。但作者也观察到,较长时间的 RLVR 训练在高采样评估下可能暴露出退化:pass@1 稳定,但 pass@64 等高采样指标下降。
从分数到机制:为什么有些方法更容易遗忘?
PEFT-Arena 进一步从模型几何角度进行内部分析,包括权重空间几何与激活空间几何。
权重空间分析
将预训练权重矩阵沿奇异向量基底分解,考察微调后有效权重相对于原始谱结构的偏移:
LoRA 等低秩方法倾向于产生集中的更新模式;PiSSA 与主奇异方向交互较强,可能带来更大的结构扰动;OFT 由于采用正交参数化,更倾向于保持权重谱的原始几何特征。
作者还引入了能力条件化漂移(Capability-Conditioned Drift,CSD),量化权重更新在通用领域与目标领域数据上引发的激活扰动。实验表明,通用领域数据的 CSD 与遗忘存在关联,而目标领域 CSD 不能简单预测目标分数。
激活空间分析
仅看权重更新不够。PEFT-Arena 比较了预训练模型与微调后模型在通用领域数据上的激活表示,核心问题是:微调后,预训练模型原本组织起来的样本关系是否依然保持?
引入三种度量:
结果显示,这些度量与遗忘程度存在较强关联:Procrustes 残差和 Gram 失真越高,遗忘越严重;CKA 越高,通用能力保留越好。OFT 虽会移动表示,却更倾向于保持表示的几何结构;PiSSA 则表现出更强的非等距扭曲,对应更严重的遗忘。
关键结论:遗忘的关键不在于“激活移动了多少”,而在于“通用表征的几何结构是否被破坏”。
不完全学习现象(ILP)
除了宏观的通用能力遗忘,微调还存在微观层面的学习失败。腾讯混元与新南威尔士大学的最新研究(ACL 2026)首次揭示了不完全学习现象(ILP):即使微调到收敛,大模型仍会“漏掉”约 15.3% 的训练样本。
检测方法
将监督响应转换为多项选择题格式,保留正确选项并构造干扰项。训练收敛后重新评估整个训练集,使用 pass@N 和 Best-of-N 判定未学习样本(pass@5 < 0.2)。
五大根因
针对性干预
实践建议
基于上述分析,我们提出以下实践建议:
总结
PEFT 评测不能只看下游分。通用能力损失同样重要,甚至更关键——因为预训练能力是模型价值的根基。PEFT-Arena 提供了双轴评测框架,将问题从“谁的下游准确率更高”转变为“哪种方法能以最小的预训练能力损失获得足够的目标域适配”。不完全学习现象则揭示了样本级的学习失败,并提供了诊断与干预工具。
开发者应将这些方法融入自己的评测流程,确保微调后的模型既专业又通用。
FAQ
Q: 什么是稳定性-可塑性权衡? 稳定性-可塑性权衡是机器学习中的经典问题:模型在学习新任务(可塑性)时,需要保留旧知识(稳定性)。在 PEFT 中,可塑性指目标域适配能力,稳定性指预训练通用能力保留。理想的方法应在两者间取得平衡。
Q: 如何检测未学习样本? 将监督响应转换为多项选择题格式,保留正确选项并构造干扰项。训练收敛后重新评估整个训练集,使用 pass@N(如 pass@5 < 0.2)判定未学习样本。
Q: OFT 为什么能更好地保留通用能力? OFT 采用正交参数化,微调更新倾向于保持预训练权重的谱结构和激活空间的几何结构,从而减少对通用表征的破坏。PEFT-Arena 的实验显示,OFT 在 Procrustes 残差和 Gram 失真等度量上表现更好,对应更少的遗忘。
Q: 如果发现模型遗忘严重,应该怎么办? 首先诊断遗忘的根因:是预训练知识缺失、知识冲突、数据矛盾还是优化不足?然后针对性干预:知识缺失用 CPT 补充,知识冲突用 CPT 校准,数据冲突用动态分桶,左侧遗忘用全局 shuffle,优化不足用渐进 epoch。
Q: 插值分析有什么用? 插值分析可以诊断最终 checkpoint 是否是最优权衡点。在基础模型与微调后模型之间进行参数插值,可能找到中间点,既能保留大部分目标收益,又能恢复相当多的通用能力。对于已有微调模型,沿合适路径做 post-hoc rewinding 可改善权衡。
相关教程
系统讲解后训练中的关键方法(SFT、RLHF、OPD、PEFT),并给出评估通用能力损失的量化方法
系统梳理 AI Agent 面临的主要安全威胁及防御策略,帮助开发者构建安全可靠的智能体系统
针对特定任务和领域微调语言模型的实用指南
资深AI工程师详解微调、RAG与提示工程的选择决策框架
覆盖拓扑优化、流水线并行、RL训练框架与市场机制,构建高效协作的多Agent系统
做出正确的架构决策:为您的 LLM 应用选择微调还是 RAG