大模型后训练实战:从 SFT 到 RL 的完整技术栈

系统讲解后训练中的关键方法(SFT、RLHF、OPD、PEFT),并给出评估通用能力损失的量化方法

返回教程列表
进阶35 分钟

大模型后训练实战:从 SFT 到 RL 的完整技术栈

系统讲解后训练中的关键方法(SFT、RLHF、OPD、PEFT),并给出评估通用能力损失的量化方法

本文系统讲解大模型后训练的关键技术,包括监督微调(SFT)、参数高效微调(PEFT)、基于人类反馈的强化学习(RLHF)以及在线策略蒸馏(OPD)。重点分析各方法的原理、优劣及适用场景,并引入稳定性-可塑性权衡框架来量化微调带来的通用能力损失。通过对比全量微调、LoRA、OFT等PEFT方法的遗忘特性,揭示激活空间几何结构破坏是遗忘的关键机制。最后总结OPD作为新范式的优势,并提供落地指南和常见问题解答。

引言:后训练的三层架构与核心挑战

大模型开发通常遵循“预训练 → 后训练”的两阶段范式。预训练阶段通过海量无监督数据赋予模型通用语言能力和世界知识,而后训练阶段则通过少量高质量数据将模型适配到具体任务或行为规范上。

后训练可以进一步细分为三层:

  • Pre-training:基础语言建模,学习语法、推理、常识等。
  • Mid-training:领域知识注入,如代码、医学、法律等专业语料。
  • Post-training:行为对齐与任务适配,包括指令跟随、推理能力强化等。
  • 后训练的核心挑战在于:如何在提升目标任务性能的同时,尽可能保留预训练赋予的通用能力。本文将系统讲解后训练中的关键方法,包括监督微调(SFT)、参数高效微调(PEFT)、基于人类反馈的强化学习(RLHF)以及最新的在线策略蒸馏(OPD),并给出评估通用能力损失的量化方法。

    监督微调(SFT):基础但需警惕“不完全学习”

    SFT是最经典的后训练方法,通过在高质量标注数据上最小化交叉熵损失来调整模型行为。然而,SFT存在一个被广泛忽视的问题:不完全学习现象(Incomplete Learning Phenomenon, ILP)。

    不完全学习的五大根因

    腾讯混元与新南威尔士大学的研究(ACL 2026)首次系统揭示了ILP:即使训练loss收敛、学习率衰减,模型在训练集上重新评估时,仍有约15.3%的样本答错。作者将其归因为五大根因:

  • 预训练知识缺失:基模型本身不具备解决该样本所需的知识,SFT无法“无中生有”。
  • SFT与基模型知识冲突:预训练形成了顽固的错误信念,SFT的监督信号难以纠正。
  • SFT数据内部冲突:语义相似的样本存在标签矛盾,优化信号相互抵消。
  • 左侧遗忘:多任务/混合域数据顺序拼接时,早期样本被后期样本覆盖。
  • 优化不足:复杂或长尾样本未得到充分训练。
  • 针对性缓解策略

    针对不同根因,研究者提出了差异化的干预措施:

  • 知识缺失:采用持续预训练(CPT)补充相关知识。
  • 知识冲突:使用CPT校准模型内部表示。
  • 数据冲突:动态分桶,将矛盾样本分到不同batch中。
  • 左侧遗忘:全局打乱数据顺序,并动态重采样。
  • 优化不足:渐进式增加训练epoch。
  • 这些策略在医疗、法律等领域的基准测试上取得了显著提升,例如MedQA +12.5%,LegalBench +9.4%~14.1%。

    参数高效微调(PEFT):权衡可塑性与稳定性

    随着模型规模增长,全量微调的计算成本变得难以承受。参数高效微调(PEFT)应运而生,仅更新少量参数即可适配下游任务。但PEFT方法在下游性能与通用能力保留之间如何权衡?

    PEFT-Arena:双轴评测框架

    香港中文大学等机构提出的PEFT-Arena从稳定性-可塑性权衡(stability–plasticity trade-off)视角重新审视PEFT方法。其核心思想是:

  • 可塑性:模型在目标领域学到了多少。
  • 稳定性:模型保留了多少预训练通用能力。
  • 传统评测只看下游准确率,而PEFT-Arena同时评估通用能力保留,将结果可视化为二维图:横轴代表通用能力,纵轴代表目标域性能。理想方法位于右上角。

    不同PEFT方法的权衡表现

    实验使用Qwen2.5-7B和Llama3.2-3B-Instruct,在数学与医学推理两个目标域上进行SFT和基于验证奖励的强化学习(RLVR)训练,并以IFEval、Natural Questions、BBH等任务评估通用能力保留。主要发现:

    方法目标域性能通用能力保留特点

    全量微调最高显著下降计算成本高,遗忘严重 LoRA较高中等低秩近似,更新集中 PiSSA较高较差与主奇异方向交互强,结构扰动大 VeRA较低较好通用能力保持稳定,但目标提升有限 OFT(正交微调)较高较好保持权重谱几何结构,权衡最优

    遗忘的机制:激活空间几何结构破坏

    PEFT-Arena进一步从权重空间和激活空间分析遗忘原因:

  • 权重空间:通过能力条件化漂移(CSD)量化权重更新在不同数据分布上的影响。通用领域数据的CSD与遗忘强相关。
  • 激活空间:使用Procrustes残差、Gram矩阵失真、CKA等度量比较微调前后的表示变化。结果显示,遗忘的关键不在于“激活移动了多少”,而在于“通用表征的几何结构是否被破坏”。
  • OFT由于采用正交参数化,倾向于保持表示的几何结构,因此表现出更好的权衡。这一发现为选择PEFT方法提供了理论指导。

    基于人类反馈的强化学习(RLHF)与RLVR

    RLHF通过人类偏好数据训练奖励模型,再用强化学习优化策略模型。然而,传统RLHF存在奖励信号稀疏的问题——一条数千token的推理轨迹,最后只给一个0/1的对错信号,导致信用分配困难。

    RLVR:基于可验证奖励的强化学习

    RLVR(Reinforcement Learning with Verifiable Rewards)是reasoning模型的标配训练范式,使用可验证的奖励(如数学答案是否正确)替代人类偏好。尽管简单有效,但稀疏奖励问题依然存在。

    自蒸馏方法解决稀疏奖励

    近期研究者提出通过自蒸馏(self-distillation)来解决稀疏奖励问题,核心思想是让同一模型同时作为学生和教师,利用教师看到的privileged context(如正确答案或正确轨迹)为学生提供token级别的密集反馈。

    代表性工作包括:

  • SDPO:教师使用学生自己生成的正确轨迹作为上下文,通过logit-level KL散度提供信号。
  • SRPO:在SDPO基础上引入sample routing,只在错误轨迹上使用教师信号。
  • RLSD:教师使用ground-truth answer作为上下文,将师生token概率比作为advantage的per-token weight。
  • RLRT:叛逆学生的反向信号

    微软与KAIST提出的RLRT(Rebellious Student)则彻底颠覆了教师角色:在成功轨迹上,学生已经做对了,此时教师反而是冗余信息。RLRT将教师信号反向使用——奖励学生偏离教师偏好的token,从而保护学生独有的探索路径。实验表明,Qwen3-4B-Base在6个数学benchmark上比标准GRPO提升18%。

    在线策略蒸馏(OPD):后训练的新范式

    OPD(On-Policy Distillation)已成为继SFT、RL之后大模型的第三大标配技术。它结合了on-policy RL的分布匹配优势和蒸馏的密集信号优势,被Qwen3、GLM-5、MiMo-V2、DeepSeek-V4等主流模型采用。

    OPD的核心原理

    传统off-policy蒸馏存在分布不匹配问题:学生训练时学习教师的分布,推理时却从自己的分布生成,导致长序列效果差。OPD的解决方案是:

  • 学生模型自己生成完整的推理轨迹(rollout)。
  • 在学生生成的每一步前缀上,使用教师模型的token级对数概率作为密集奖励信号。
  • 优化目标是最小化学生轨迹上的反向KL散度(reverse KL)。
  • 反向KL具有mode-seeking性质,让学生集中学习教师的高概率模式,而非平均覆盖所有可能输出,这对推理任务尤为重要。

    OPD成功的两个核心条件

    清华大学的系统研究揭示了OPD成败的关键:

  • 思维模式一致性:教师和学生的初始重叠率(overlap ratio)必须足够高。实验表明,两个分数相近但训练管线不同的教师,与学生重叠率高的那个蒸馏效果显著更好。
  • 教师具备新能力:教师必须拥有学生从未接触过的真正新能力。同管线、同数据的强教师(参数量更大)无法提供有效信号,而经过额外RL训练的教师效果提升3倍以上。
  • OPD的底层机制

    成功的OPD本质上是师生高概率重叠token的渐进式对齐。统计显示,97%-99%的有效梯度来自重叠token。随着训练推进,重叠区域会自我强化,形成正向循环。

    落地指南

    当OPD训练失败时,可采取以下策略:

  • Off-policy cold start:先用教师生成的轨迹对学生做一轮SFT,拉高初始重叠率。
  • Teacher-aligned prompt selection:使用教师后训练阶段的prompt进行OPD,但需混合部分OOD prompt以保持生成多样性。
  • OPD的局限

    OPD的token级密集奖励存在固有代价:奖励质量会随轨迹深度增加而下降。实验表明,OPD效果在3K-7K序列长度达到峰值,超过10K后停滞甚至下降。长序列下,教师对尾部token的指导可能不准确,导致训练不稳定。

    评估通用能力损失的量化方法

    后训练过程中,通用能力损失是一个不可忽视的问题。以下提供几种量化方法:

    双轴评测框架

    如PEFT-Arena所示,将目标域性能和通用能力保留作为两个独立维度,绘制二维图。通用能力可通过IFEval(指令跟随)、Natural Questions(事实知识)、BBH(推理)等基准测试评估。

    能力条件化漂移(CSD)

    CSD量化权重更新在通用领域与目标领域数据上引发的激活扰动。通用领域CSD越高,遗忘越严重。

    表示几何度量

  • Procrustes残差:测量微调前后表示中无法通过正交变换对齐的结构性变化。
  • Gram矩阵失真:比较样本间成对相似度矩阵的变化。
  • CKA:衡量表示相似度。
  • 这些度量与遗忘程度强相关,可作为评估工具。

    插值路径分析

    在基础模型与微调后模型之间进行参数插值,观察目标性能和通用性能随插值系数的变化。最终checkpoint往往不是最优权衡点,中间插值点可能在保留大部分目标收益的同时恢复通用能力。

    实践建议与框架选择

    选择合适的后训练方法

    场景推荐方法理由

    快速适配单一任务PEFT(如LoRA)计算成本低,效果不错 追求极致性能全量微调 + 通用能力监控但需注意遗忘问题 推理能力强化OPD信号密集,分布匹配 多任务整合多教师OPD在logit空间整合知识

    工具与框架

  • LiteScale:一个支持异步训练和在线知识蒸馏的后训练框架,通过梯度累积解耦rollout与训练,支持GKD(Generalized Knowledge Distillation)和LogitsExpress高效传输模块。
  • TRL:Hugging Face的强化学习库,支持PPO、GRPO等算法。
  • DeepSpeed:微软的分布式训练框架,可用于大规模后训练。
  • FAQ

    什么是OPD?它与传统蒸馏有何不同? OPD(On-Policy Distillation)是一种在线策略蒸馏方法,学生模型自己生成轨迹,教师模型在每一步提供token级密集反馈,优化反向KL散度。与传统off-policy蒸馏不同,OPD解决了分布不匹配问题,训练稳定性更高,长序列效果更好。

    如何量化微调带来的通用能力损失? 可以使用双轴评测框架(目标域性能 vs 通用能力保留),或通过能力条件化漂移(CSD)、表示几何度量(Procrustes残差、Gram矩阵失真、CKA)等指标量化。插值路径分析也可用于发现最优权衡点。

    为什么强教师有时会导致OPD训练失败? OPD成功的核心条件是师生思维模式一致性和教师具备新能力。强教师如果与学生初始重叠率低(思维模式不匹配),或者仅是同管线的更大模型(无新能力),就无法提供有效梯度信号,导致训练失败。

    PEFT方法中,哪种在通用能力保留上表现最好? 正交微调(OFT)在目标域性能与通用能力保留之间取得了最佳权衡。它通过保持权重谱的几何结构,在适配目标任务的同时最小化对通用表征的破坏。

    SFT中如何解决不完全学习问题? 首先通过MC转换和pass@N检测识别未学习样本,然后归因到五大根因(知识缺失、知识冲突、数据冲突、左侧遗忘、优化不足),并采取针对性干预:CPT补知识、动态分桶解决冲突、全局shuffle抗遗忘、渐进epoch补优化等。

    后训练框架LiteScale有什么特点? LiteScale通过梯度累积实现异步训练,解耦rollout与训练过程,提高资源利用率。它支持GKD在线知识蒸馏,并设计了LogitsExpress模块用于高效传输教师logits,支持不同DP-TP配置下的点对点通信。