大模型后训练实战:从 SFT 到 RL 的完整技术栈
系统讲解后训练中的关键方法(SFT、RLHF、OPD、PEFT),并给出评估通用能力损失的量化方法
大模型后训练实战:从 SFT 到 RL 的完整技术栈
系统讲解后训练中的关键方法(SFT、RLHF、OPD、PEFT),并给出评估通用能力损失的量化方法
本文系统讲解大模型后训练的关键技术,包括监督微调(SFT)、参数高效微调(PEFT)、基于人类反馈的强化学习(RLHF)以及在线策略蒸馏(OPD)。重点分析各方法的原理、优劣及适用场景,并引入稳定性-可塑性权衡框架来量化微调带来的通用能力损失。通过对比全量微调、LoRA、OFT等PEFT方法的遗忘特性,揭示激活空间几何结构破坏是遗忘的关键机制。最后总结OPD作为新范式的优势,并提供落地指南和常见问题解答。
引言:后训练的三层架构与核心挑战
大模型开发通常遵循“预训练 → 后训练”的两阶段范式。预训练阶段通过海量无监督数据赋予模型通用语言能力和世界知识,而后训练阶段则通过少量高质量数据将模型适配到具体任务或行为规范上。
后训练可以进一步细分为三层:
后训练的核心挑战在于:如何在提升目标任务性能的同时,尽可能保留预训练赋予的通用能力。本文将系统讲解后训练中的关键方法,包括监督微调(SFT)、参数高效微调(PEFT)、基于人类反馈的强化学习(RLHF)以及最新的在线策略蒸馏(OPD),并给出评估通用能力损失的量化方法。
监督微调(SFT):基础但需警惕“不完全学习”
SFT是最经典的后训练方法,通过在高质量标注数据上最小化交叉熵损失来调整模型行为。然而,SFT存在一个被广泛忽视的问题:不完全学习现象(Incomplete Learning Phenomenon, ILP)。
不完全学习的五大根因
腾讯混元与新南威尔士大学的研究(ACL 2026)首次系统揭示了ILP:即使训练loss收敛、学习率衰减,模型在训练集上重新评估时,仍有约15.3%的样本答错。作者将其归因为五大根因:
针对性缓解策略
针对不同根因,研究者提出了差异化的干预措施:
这些策略在医疗、法律等领域的基准测试上取得了显著提升,例如MedQA +12.5%,LegalBench +9.4%~14.1%。
参数高效微调(PEFT):权衡可塑性与稳定性
随着模型规模增长,全量微调的计算成本变得难以承受。参数高效微调(PEFT)应运而生,仅更新少量参数即可适配下游任务。但PEFT方法在下游性能与通用能力保留之间如何权衡?
PEFT-Arena:双轴评测框架
香港中文大学等机构提出的PEFT-Arena从稳定性-可塑性权衡(stability–plasticity trade-off)视角重新审视PEFT方法。其核心思想是:
传统评测只看下游准确率,而PEFT-Arena同时评估通用能力保留,将结果可视化为二维图:横轴代表通用能力,纵轴代表目标域性能。理想方法位于右上角。
不同PEFT方法的权衡表现
实验使用Qwen2.5-7B和Llama3.2-3B-Instruct,在数学与医学推理两个目标域上进行SFT和基于验证奖励的强化学习(RLVR)训练,并以IFEval、Natural Questions、BBH等任务评估通用能力保留。主要发现:
遗忘的机制:激活空间几何结构破坏
PEFT-Arena进一步从权重空间和激活空间分析遗忘原因:
OFT由于采用正交参数化,倾向于保持表示的几何结构,因此表现出更好的权衡。这一发现为选择PEFT方法提供了理论指导。
基于人类反馈的强化学习(RLHF)与RLVR
RLHF通过人类偏好数据训练奖励模型,再用强化学习优化策略模型。然而,传统RLHF存在奖励信号稀疏的问题——一条数千token的推理轨迹,最后只给一个0/1的对错信号,导致信用分配困难。
RLVR:基于可验证奖励的强化学习
RLVR(Reinforcement Learning with Verifiable Rewards)是reasoning模型的标配训练范式,使用可验证的奖励(如数学答案是否正确)替代人类偏好。尽管简单有效,但稀疏奖励问题依然存在。
自蒸馏方法解决稀疏奖励
近期研究者提出通过自蒸馏(self-distillation)来解决稀疏奖励问题,核心思想是让同一模型同时作为学生和教师,利用教师看到的privileged context(如正确答案或正确轨迹)为学生提供token级别的密集反馈。
代表性工作包括:
RLRT:叛逆学生的反向信号
微软与KAIST提出的RLRT(Rebellious Student)则彻底颠覆了教师角色:在成功轨迹上,学生已经做对了,此时教师反而是冗余信息。RLRT将教师信号反向使用——奖励学生偏离教师偏好的token,从而保护学生独有的探索路径。实验表明,Qwen3-4B-Base在6个数学benchmark上比标准GRPO提升18%。
在线策略蒸馏(OPD):后训练的新范式
OPD(On-Policy Distillation)已成为继SFT、RL之后大模型的第三大标配技术。它结合了on-policy RL的分布匹配优势和蒸馏的密集信号优势,被Qwen3、GLM-5、MiMo-V2、DeepSeek-V4等主流模型采用。
OPD的核心原理
传统off-policy蒸馏存在分布不匹配问题:学生训练时学习教师的分布,推理时却从自己的分布生成,导致长序列效果差。OPD的解决方案是:
反向KL具有mode-seeking性质,让学生集中学习教师的高概率模式,而非平均覆盖所有可能输出,这对推理任务尤为重要。
OPD成功的两个核心条件
清华大学的系统研究揭示了OPD成败的关键:
OPD的底层机制
成功的OPD本质上是师生高概率重叠token的渐进式对齐。统计显示,97%-99%的有效梯度来自重叠token。随着训练推进,重叠区域会自我强化,形成正向循环。
落地指南
当OPD训练失败时,可采取以下策略:
OPD的局限
OPD的token级密集奖励存在固有代价:奖励质量会随轨迹深度增加而下降。实验表明,OPD效果在3K-7K序列长度达到峰值,超过10K后停滞甚至下降。长序列下,教师对尾部token的指导可能不准确,导致训练不稳定。
评估通用能力损失的量化方法
后训练过程中,通用能力损失是一个不可忽视的问题。以下提供几种量化方法:
双轴评测框架
如PEFT-Arena所示,将目标域性能和通用能力保留作为两个独立维度,绘制二维图。通用能力可通过IFEval(指令跟随)、Natural Questions(事实知识)、BBH(推理)等基准测试评估。
能力条件化漂移(CSD)
CSD量化权重更新在通用领域与目标领域数据上引发的激活扰动。通用领域CSD越高,遗忘越严重。
表示几何度量
这些度量与遗忘程度强相关,可作为评估工具。
插值路径分析
在基础模型与微调后模型之间进行参数插值,观察目标性能和通用性能随插值系数的变化。最终checkpoint往往不是最优权衡点,中间插值点可能在保留大部分目标收益的同时恢复通用能力。
实践建议与框架选择
选择合适的后训练方法
工具与框架
FAQ
什么是OPD?它与传统蒸馏有何不同? OPD(On-Policy Distillation)是一种在线策略蒸馏方法,学生模型自己生成轨迹,教师模型在每一步提供token级密集反馈,优化反向KL散度。与传统off-policy蒸馏不同,OPD解决了分布不匹配问题,训练稳定性更高,长序列效果更好。
如何量化微调带来的通用能力损失? 可以使用双轴评测框架(目标域性能 vs 通用能力保留),或通过能力条件化漂移(CSD)、表示几何度量(Procrustes残差、Gram矩阵失真、CKA)等指标量化。插值路径分析也可用于发现最优权衡点。
为什么强教师有时会导致OPD训练失败? OPD成功的核心条件是师生思维模式一致性和教师具备新能力。强教师如果与学生初始重叠率低(思维模式不匹配),或者仅是同管线的更大模型(无新能力),就无法提供有效梯度信号,导致训练失败。
PEFT方法中,哪种在通用能力保留上表现最好? 正交微调(OFT)在目标域性能与通用能力保留之间取得了最佳权衡。它通过保持权重谱的几何结构,在适配目标任务的同时最小化对通用表征的破坏。
SFT中如何解决不完全学习问题? 首先通过MC转换和pass@N检测识别未学习样本,然后归因到五大根因(知识缺失、知识冲突、数据冲突、左侧遗忘、优化不足),并采取针对性干预:CPT补知识、动态分桶解决冲突、全局shuffle抗遗忘、渐进epoch补优化等。
后训练框架LiteScale有什么特点? LiteScale通过梯度累积实现异步训练,解耦rollout与训练过程,提高资源利用率。它支持GKD在线知识蒸馏,并设计了LogitsExpress模块用于高效传输教师logits,支持不同DP-TP配置下的点对点通信。
相关教程
什么时候值得微调,什么时候用 Prompt 工程就够了
Senior AI engineers explain the decision framework for choosing between fine-tuning, RAG, and prompt engineering
The practical guide to fine-tuning language models for specific tasks and domains
覆盖拓扑优化、流水线并行、RL训练框架与市场机制,构建高效协作的多Agent系统
Adapt large language models to your specific use case
Train custom AI models from Llama 3 and Mistral using LoRA/QLoRA fine-tuning on a single consumer GPU with less than 24GB VRAM