PEFT 方法评测指南：不能只看下游分，通用能力损失也该被量化

Q: 什么是稳定性-可塑性权衡？

稳定性-可塑性权衡是机器学习中的经典问题：模型在学习新任务（可塑性）时，需要保留旧知识（稳定性）。在 PEFT 中，可塑性指目标域适配能力，稳定性指预训练通用能力保留。理想的方法应在两者间取得平衡。

Q: 如何检测未学习样本？

将监督响应转换为多项选择题格式，保留正确选项并构造干扰项。训练收敛后重新评估整个训练集，使用 pass@N（如 pass@5 < 0.2）判定未学习样本。

Q: OFT 为什么能更好地保留通用能力？

OFT 采用正交参数化，微调更新倾向于保持预训练权重的谱结构和激活空间的几何结构，从而减少对通用表征的破坏。PEFT-Arena 的实验显示，OFT 在 Procrustes 残差和 Gram 失真等度量上表现更好，对应更少的遗忘。

Q: 如果发现模型遗忘严重，应该怎么办？

首先诊断遗忘的根因：是预训练知识缺失、知识冲突、数据矛盾还是优化不足？然后针对性干预：知识缺失用 CPT 补充，知识冲突用 CPT 校准，数据冲突用动态分桶，左侧遗忘用全局 shuffle，优化不足用渐进 epoch。

Q: 插值分析有什么用？

插值分析可以诊断最终 checkpoint 是否是最优权衡点。在基础模型与微调后模型之间进行参数插值，可能找到中间点，既能保留大部分目标收益，又能恢复相当多的通用能力。对于已有微调模型，沿合适路径做 post-hoc rewinding 可改善权衡。

从稳定性-可塑性权衡出发，系统评估参数高效微调的目标适配与能力保留

返回教程列表

高级约 25 分钟

PEFT 方法评测指南：不能只看下游分，通用能力损失也该被量化

从稳定性-可塑性权衡出发，系统评估参数高效微调的目标适配与能力保留

参数高效微调（PEFT）已成为大模型适配的主流方法，但传统评测仅关注下游任务准确率，忽视了微调导致的通用能力损失。本文基于 PEFT-Arena 等最新研究，提出从稳定性-可塑性权衡视角重新审视 PEFT 方法，引入双轴评测框架，涵盖目标域性能与通用能力保留，并深入分析权重空间与激活空间的几何机制。同时结合不完全学习现象（ILP），介绍检测-归因-干预诊断框架，帮助开发者量化遗忘、优化微调策略。

fine-tuning lora evaluation benchmark

引言

参数高效微调（Parameter-Efficient Fine-Tuning，PEFT）如 LoRA、Adapter 等，已成为大模型适配下游任务的主流选择。相比全量微调，PEFT 仅更新少量参数，训练成本低、部署灵活。然而，当前 PEFT 方法的评测几乎完全聚焦于下游任务准确率——一个方法在数学推理上提升了多少点，在医学问答上提高了多少分。

这种单一指标存在严重盲点：微调过程中，模型可能遗忘大量预训练阶段习得的通用能力，如指令遵循、事实回忆、常识推理等。一个在数学基准上表现优异的方法，可能同时削弱了模型回答日常问题的能力。这种“遗忘”被单一准确率指标完全掩盖。

本文综合近期研究，提出 PEFT 评测应同时量化目标适配与通用能力保留，并从稳定性-可塑性权衡（stability–plasticity trade-off）的角度系统分析不同 PEFT 方法的表现。我们还将介绍不完全学习现象（Incomplete Learning Phenomenon, ILP），揭示微调中样本级的学习失败，并提供诊断与干预框架。

传统 PEFT 评测的局限性

传统 PEFT 评测的核心问题是：微调后，下游任务准确率提高了多少？这固然重要，但大模型的应用需求远不止单一任务。预训练赋予了模型广泛能力，包括指令遵循、事实知识、阅读理解和通用推理。如果微调以牺牲这些能力为代价换取目标分数，那么单一准确率指标就会掩盖这一权衡。

遗忘被隐藏：一个模型可能在数学推理上提升 10 个百分点，但在常识问答上下降 15 个百分点，而传统评测报告只展示前者。

忽略稳定性：微调的目标是适配，但适配不应以破坏预训练表示结构为代价。

缺乏机制解释：即使发现遗忘，传统方法也无法回答“为什么某些方法遗忘更严重”。

PEFT-Arena：双轴评测框架

近期，来自香港中文大学、西湖大学等机构的研究者提出了 PEFT-Arena，一个从稳定性-可塑性权衡视角重新审视 PEFT 方法的评测基准。该工作已在 ICLR 2026 相关 workshop 展示，并开源了代码。

双轴评测设计

PEFT-Arena 设置双轴评测：

可塑性（Plasticity）：模型在目标领域学到了多少，用下游任务准确率衡量。

稳定性（Stability）：模型保留了多少预训练通用能力，用 IFEval、Natural Questions、BBH 等通用基准衡量。

实验选用 Qwen2.5-7B 和 Llama3.2-3B-Instruct，在数学与医学推理两个目标域上分别进行监督微调（SFT）与基于验证奖励的强化学习（RLVR）训练。

二维评估图

PEFT-Arena 提供二维评估图：横轴代表通用能力（稳定性），纵轴代表目标域性能（可塑性）。理想方法位于右上角。

全量微调：目标域表现强，但通用能力下降显著。

LoRA：相对保守，但仍可能出现不可忽视的遗忘。

PiSSA：在某些设置下目标分数提升，但通用能力损失严重。

VeRA：通用能力保持稳定，但目标域提升有限。

正交微调（OFT）：往往落在更具竞争力的“目标-保留前沿”上，在相近目标收益下保留更多通用能力。

例如，在 Qwen2.5-7B SFT 数学实验中，全量微调大幅提升目标分数，但通用分数严重下滑；而 OFT 则取得了更均衡的结果。

RLVR 的特殊性

相比 SFT，RLVR 在主要评估设置下通常表现出更弱的通用能力遗忘；在某些设置中，它甚至能在提升目标任务的同时保持或提高通用分数。但作者也观察到，较长时间的 RLVR 训练在高采样评估下可能暴露出退化：pass@1 稳定，但 pass@64 等高采样指标下降。

从分数到机制：为什么有些方法更容易遗忘？

PEFT-Arena 进一步从模型几何角度进行内部分析，包括权重空间几何与激活空间几何。

权重空间分析

将预训练权重矩阵沿奇异向量基底分解，考察微调后有效权重相对于原始谱结构的偏移：

结构保留视图：衡量微调后权重在多大程度上保留了预训练的奇异结构。

更新能量视图：衡量微调更新主要集中在哪些预训练方向上。

LoRA 等低秩方法倾向于产生集中的更新模式；PiSSA 与主奇异方向交互较强，可能带来更大的结构扰动；OFT 由于采用正交参数化，更倾向于保持权重谱的原始几何特征。

作者还引入了能力条件化漂移（Capability-Conditioned Drift，CSD），量化权重更新在通用领域与目标领域数据上引发的激活扰动。实验表明，通用领域数据的 CSD 与遗忘存在关联，而目标领域 CSD 不能简单预测目标分数。

激活空间分析

仅看权重更新不够。PEFT-Arena 比较了预训练模型与微调后模型在通用领域数据上的激活表示，核心问题是：微调后，预训练模型原本组织起来的样本关系是否依然保持？

引入三种度量：

Procrustes 残差：先用最佳正交变换对齐微调前后的表示，再测量无法对齐的结构性变化。

Gram 矩阵失真：比较微调前后样本间成对相似度矩阵的变化。

中心核对齐（CKA）：衡量微调前后的表示相似度。

结果显示，这些度量与遗忘程度存在较强关联：Procrustes 残差和 Gram 失真越高，遗忘越严重；CKA 越高，通用能力保留越好。OFT 虽会移动表示，却更倾向于保持表示的几何结构；PiSSA 则表现出更强的非等距扭曲，对应更严重的遗忘。

关键结论：遗忘的关键不在于“激活移动了多少”，而在于“通用表征的几何结构是否被破坏”。

不完全学习现象（ILP）

除了宏观的通用能力遗忘，微调还存在微观层面的学习失败。腾讯混元与新南威尔士大学的最新研究（ACL 2026）首次揭示了不完全学习现象（ILP）：即使微调到收敛，大模型仍会“漏掉”约 15.3% 的训练样本。

检测方法

将监督响应转换为多项选择题格式，保留正确选项并构造干扰项。训练收敛后重新评估整个训练集，使用 pass@N 和 Best-of-N 判定未学习样本（pass@5 < 0.2）。

五大根因

预训练知识缺失：基模型 zero-shot 准确率 < 0.8，SFT 无法“无中生有”。

SFT 与基模型知识冲突：基模型对错误答案置信度极高，预训练形成顽固错误信念。

SFT 数据内部冲突：语义相似样本但标签矛盾，优化信号互相抵消。

左侧遗忘：多任务顺序训练时，早期样本被后期样本覆盖。

优化不足：复杂/长尾模式未充分收敛。

针对性干预

知识缺失：持续预训练（CPT）补充知识，MedQA +12.5%。

知识冲突：CPT 校准，冲突率显著下降。

数据冲突：动态分桶隔离矛盾样本，比直接删除效果更好（+2.8% vs +1.5%）。

左侧遗忘：全局 shuffle + 动态重采样，ROUGE-L 提升 +29%。

优化不足：渐进式 epoch 增量，平均提升 +1.8%~1.9%。

实践建议

基于上述分析，我们提出以下实践建议：

建立双轴评测体系：在评估 PEFT 方法时，不仅要报告下游任务准确率，还应报告通用能力保留指标。

关注表示几何：选择倾向于保持预训练表示几何结构的方法（如 OFT），可减少遗忘。

诊断未学习样本：使用 MC 转换检测训练集上的未学习样本，并归因到具体根因。

针对性干预：根据根因选择干预策略，避免盲目增加 epoch 或调整超参。

检查插值路径：最终 checkpoint 不一定是最优权衡点，沿合适路径做 post-hoc rewinding 可能改善权衡。

总结

PEFT 评测不能只看下游分。通用能力损失同样重要，甚至更关键——因为预训练能力是模型价值的根基。PEFT-Arena 提供了双轴评测框架，将问题从“谁的下游准确率更高”转变为“哪种方法能以最小的预训练能力损失获得足够的目标域适配”。不完全学习现象则揭示了样本级的学习失败，并提供了诊断与干预工具。

开发者应将这些方法融入自己的评测流程，确保微调后的模型既专业又通用。

FAQ

Q: 什么是稳定性-可塑性权衡？ 稳定性-可塑性权衡是机器学习中的经典问题：模型在学习新任务（可塑性）时，需要保留旧知识（稳定性）。在 PEFT 中，可塑性指目标域适配能力，稳定性指预训练通用能力保留。理想的方法应在两者间取得平衡。

Q: 如何检测未学习样本？ 将监督响应转换为多项选择题格式，保留正确选项并构造干扰项。训练收敛后重新评估整个训练集，使用 pass@N（如 pass@5 < 0.2）判定未学习样本。

Q: OFT 为什么能更好地保留通用能力？ OFT 采用正交参数化，微调更新倾向于保持预训练权重的谱结构和激活空间的几何结构，从而减少对通用表征的破坏。PEFT-Arena 的实验显示，OFT 在 Procrustes 残差和 Gram 失真等度量上表现更好，对应更少的遗忘。

Q: 如果发现模型遗忘严重，应该怎么办？ 首先诊断遗忘的根因：是预训练知识缺失、知识冲突、数据矛盾还是优化不足？然后针对性干预：知识缺失用 CPT 补充，知识冲突用 CPT 校准，数据冲突用动态分桶，左侧遗忘用全局 shuffle，优化不足用渐进 epoch。

Q: 插值分析有什么用？ 插值分析可以诊断最终 checkpoint 是否是最优权衡点。在基础模型与微调后模型之间进行参数插值，可能找到中间点，既能保留大部分目标收益，又能恢复相当多的通用能力。对于已有微调模型，沿合适路径做 post-hoc rewinding 可改善权衡。

所属主题：模型微调与训练评估、测试与可观测

Getting Started

Learn how to get started with this application.

Learn more

Installation Guide

PEFT 方法评测指南：不能只看下游分，通用能力损失也该被量化

引言

传统 PEFT 评测的局限性

PEFT-Arena：双轴评测框架

双轴评测设计

二维评估图

RLVR 的特殊性

从分数到机制：为什么有些方法更容易遗忘？

权重空间分析

激活空间分析

不完全学习现象（ILP）

检测方法

五大根因

针对性干预

实践建议

总结

FAQ

Documentation

Getting Started

Learn more