PEFT 方法评测指南:不能只看下游分,通用能力损失也该被量化

从稳定性-可塑性权衡出发,系统评估参数高效微调的目标适配与能力保留

返回教程列表
高级25 分钟

PEFT 方法评测指南:不能只看下游分,通用能力损失也该被量化

从稳定性-可塑性权衡出发,系统评估参数高效微调的目标适配与能力保留

参数高效微调(PEFT)已成为大模型适配的主流方法,但传统评测仅关注下游任务准确率,忽视了微调导致的通用能力损失。本文基于 PEFT-Arena 等最新研究,提出从稳定性-可塑性权衡视角重新审视 PEFT 方法,引入双轴评测框架,涵盖目标域性能与通用能力保留,并深入分析权重空间与激活空间的几何机制。同时结合不完全学习现象(ILP),介绍检测-归因-干预诊断框架,帮助开发者量化遗忘、优化微调策略。

引言

参数高效微调(Parameter-Efficient Fine-Tuning,PEFT)如 LoRA、Adapter 等,已成为大模型适配下游任务的主流选择。相比全量微调,PEFT 仅更新少量参数,训练成本低、部署灵活。然而,当前 PEFT 方法的评测几乎完全聚焦于下游任务准确率——一个方法在数学推理上提升了多少点,在医学问答上提高了多少分。

这种单一指标存在严重盲点:微调过程中,模型可能遗忘大量预训练阶段习得的通用能力,如指令遵循、事实回忆、常识推理等。一个在数学基准上表现优异的方法,可能同时削弱了模型回答日常问题的能力。这种“遗忘”被单一准确率指标完全掩盖。

本文综合近期研究,提出 PEFT 评测应同时量化目标适配与通用能力保留,并从稳定性-可塑性权衡(stability–plasticity trade-off)的角度系统分析不同 PEFT 方法的表现。我们还将介绍不完全学习现象(Incomplete Learning Phenomenon, ILP),揭示微调中样本级的学习失败,并提供诊断与干预框架。

传统 PEFT 评测的局限性

传统 PEFT 评测的核心问题是:微调后,下游任务准确率提高了多少?这固然重要,但大模型的应用需求远不止单一任务。预训练赋予了模型广泛能力,包括指令遵循、事实知识、阅读理解和通用推理。如果微调以牺牲这些能力为代价换取目标分数,那么单一准确率指标就会掩盖这一权衡。

  • 遗忘被隐藏:一个模型可能在数学推理上提升 10 个百分点,但在常识问答上下降 15 个百分点,而传统评测报告只展示前者。
  • 忽略稳定性:微调的目标是适配,但适配不应以破坏预训练表示结构为代价。
  • 缺乏机制解释:即使发现遗忘,传统方法也无法回答“为什么某些方法遗忘更严重”。
  • PEFT-Arena:双轴评测框架

    近期,来自香港中文大学、西湖大学等机构的研究者提出了 PEFT-Arena,一个从稳定性-可塑性权衡视角重新审视 PEFT 方法的评测基准。该工作已在 ICLR 2026 相关 workshop 展示,并开源了代码。

    双轴评测设计

    PEFT-Arena 设置双轴评测:

  • 可塑性(Plasticity):模型在目标领域学到了多少,用下游任务准确率衡量。
  • 稳定性(Stability):模型保留了多少预训练通用能力,用 IFEval、Natural Questions、BBH 等通用基准衡量。
  • 实验选用 Qwen2.5-7B 和 Llama3.2-3B-Instruct,在数学与医学推理两个目标域上分别进行监督微调(SFT)与基于验证奖励的强化学习(RLVR)训练。

    二维评估图

    PEFT-Arena 提供二维评估图:横轴代表通用能力(稳定性),纵轴代表目标域性能(可塑性)。理想方法位于右上角。

  • 全量微调:目标域表现强,但通用能力下降显著。
  • LoRA:相对保守,但仍可能出现不可忽视的遗忘。
  • PiSSA:在某些设置下目标分数提升,但通用能力损失严重。
  • VeRA:通用能力保持稳定,但目标域提升有限。
  • 正交微调(OFT):往往落在更具竞争力的“目标-保留前沿”上,在相近目标收益下保留更多通用能力。
  • 例如,在 Qwen2.5-7B SFT 数学实验中,全量微调大幅提升目标分数,但通用分数严重下滑;而 OFT 则取得了更均衡的结果。

    RLVR 的特殊性

    相比 SFT,RLVR 在主要评估设置下通常表现出更弱的通用能力遗忘;在某些设置中,它甚至能在提升目标任务的同时保持或提高通用分数。但作者也观察到,较长时间的 RLVR 训练在高采样评估下可能暴露出退化:pass@1 稳定,但 pass@64 等高采样指标下降。

    从分数到机制:为什么有些方法更容易遗忘?

    PEFT-Arena 进一步从模型几何角度进行内部分析,包括权重空间几何与激活空间几何。

    权重空间分析

    将预训练权重矩阵沿奇异向量基底分解,考察微调后有效权重相对于原始谱结构的偏移:

  • 结构保留视图:衡量微调后权重在多大程度上保留了预训练的奇异结构。
  • 更新能量视图:衡量微调更新主要集中在哪些预训练方向上。
  • LoRA 等低秩方法倾向于产生集中的更新模式;PiSSA 与主奇异方向交互较强,可能带来更大的结构扰动;OFT 由于采用正交参数化,更倾向于保持权重谱的原始几何特征。

    作者还引入了能力条件化漂移(Capability-Conditioned Drift,CSD),量化权重更新在通用领域与目标领域数据上引发的激活扰动。实验表明,通用领域数据的 CSD 与遗忘存在关联,而目标领域 CSD 不能简单预测目标分数。

    激活空间分析

    仅看权重更新不够。PEFT-Arena 比较了预训练模型与微调后模型在通用领域数据上的激活表示,核心问题是:微调后,预训练模型原本组织起来的样本关系是否依然保持?

    引入三种度量:

  • Procrustes 残差:先用最佳正交变换对齐微调前后的表示,再测量无法对齐的结构性变化。
  • Gram 矩阵失真:比较微调前后样本间成对相似度矩阵的变化。
  • 中心核对齐(CKA):衡量微调前后的表示相似度。
  • 结果显示,这些度量与遗忘程度存在较强关联:Procrustes 残差和 Gram 失真越高,遗忘越严重;CKA 越高,通用能力保留越好。OFT 虽会移动表示,却更倾向于保持表示的几何结构;PiSSA 则表现出更强的非等距扭曲,对应更严重的遗忘。

    关键结论:遗忘的关键不在于“激活移动了多少”,而在于“通用表征的几何结构是否被破坏”。

    不完全学习现象(ILP)

    除了宏观的通用能力遗忘,微调还存在微观层面的学习失败。腾讯混元与新南威尔士大学的最新研究(ACL 2026)首次揭示了不完全学习现象(ILP):即使微调到收敛,大模型仍会“漏掉”约 15.3% 的训练样本。

    检测方法

    将监督响应转换为多项选择题格式,保留正确选项并构造干扰项。训练收敛后重新评估整个训练集,使用 pass@N 和 Best-of-N 判定未学习样本(pass@5 < 0.2)。

    五大根因

  • 预训练知识缺失:基模型 zero-shot 准确率 < 0.8,SFT 无法“无中生有”。
  • SFT 与基模型知识冲突:基模型对错误答案置信度极高,预训练形成顽固错误信念。
  • SFT 数据内部冲突:语义相似样本但标签矛盾,优化信号互相抵消。
  • 左侧遗忘:多任务顺序训练时,早期样本被后期样本覆盖。
  • 优化不足:复杂/长尾模式未充分收敛。
  • 针对性干预

  • 知识缺失:持续预训练(CPT)补充知识,MedQA +12.5%。
  • 知识冲突:CPT 校准,冲突率显著下降。
  • 数据冲突:动态分桶隔离矛盾样本,比直接删除效果更好(+2.8% vs +1.5%)。
  • 左侧遗忘:全局 shuffle + 动态重采样,ROUGE-L 提升 +29%。
  • 优化不足:渐进式 epoch 增量,平均提升 +1.8%~1.9%。
  • 实践建议

    基于上述分析,我们提出以下实践建议:

  • 建立双轴评测体系:在评估 PEFT 方法时,不仅要报告下游任务准确率,还应报告通用能力保留指标。
  • 关注表示几何:选择倾向于保持预训练表示几何结构的方法(如 OFT),可减少遗忘。
  • 诊断未学习样本:使用 MC 转换检测训练集上的未学习样本,并归因到具体根因。
  • 针对性干预:根据根因选择干预策略,避免盲目增加 epoch 或调整超参。
  • 检查插值路径:最终 checkpoint 不一定是最优权衡点,沿合适路径做 post-hoc rewinding 可能改善权衡。
  • 总结

    PEFT 评测不能只看下游分。通用能力损失同样重要,甚至更关键——因为预训练能力是模型价值的根基。PEFT-Arena 提供了双轴评测框架,将问题从“谁的下游准确率更高”转变为“哪种方法能以最小的预训练能力损失获得足够的目标域适配”。不完全学习现象则揭示了样本级的学习失败,并提供了诊断与干预工具。

    开发者应将这些方法融入自己的评测流程,确保微调后的模型既专业又通用。

    FAQ

    Q: 什么是稳定性-可塑性权衡? 稳定性-可塑性权衡是机器学习中的经典问题:模型在学习新任务(可塑性)时,需要保留旧知识(稳定性)。在 PEFT 中,可塑性指目标域适配能力,稳定性指预训练通用能力保留。理想的方法应在两者间取得平衡。

    Q: 如何检测未学习样本? 将监督响应转换为多项选择题格式,保留正确选项并构造干扰项。训练收敛后重新评估整个训练集,使用 pass@N(如 pass@5 < 0.2)判定未学习样本。

    Q: OFT 为什么能更好地保留通用能力? OFT 采用正交参数化,微调更新倾向于保持预训练权重的谱结构和激活空间的几何结构,从而减少对通用表征的破坏。PEFT-Arena 的实验显示,OFT 在 Procrustes 残差和 Gram 失真等度量上表现更好,对应更少的遗忘。

    Q: 如果发现模型遗忘严重,应该怎么办? 首先诊断遗忘的根因:是预训练知识缺失、知识冲突、数据矛盾还是优化不足?然后针对性干预:知识缺失用 CPT 补充,知识冲突用 CPT 校准,数据冲突用动态分桶,左侧遗忘用全局 shuffle,优化不足用渐进 epoch。

    Q: 插值分析有什么用? 插值分析可以诊断最终 checkpoint 是否是最优权衡点。在基础模型与微调后模型之间进行参数插值,可能找到中间点,既能保留大部分目标收益,又能恢复相当多的通用能力。对于已有微调模型,沿合适路径做 post-hoc rewinding 可改善权衡。