RLHF vs DPO：基于人类反馈训练LLM——2025技术指南

从人类反馈的强化学习、直接偏好优化及其替代方案

返回教程列表 🌐 Read in English

高级约 11 分钟

AI Skill Navigation 编辑团队发布于 2026年6月9日

RLHF vs DPO：基于人类反馈训练LLM——2025技术指南

从人类反馈的强化学习、直接偏好优化及其替代方案

偏好学习对齐指南（2026）：将基础模型转变为有用、无害、诚实的助手。RLHF（SFT + 奖励模型 + PPO）复杂但强大；DPO使用单一偏好损失，跳过奖励模型和强化学习，更简单稳定。包含对比表格及IPO/KTO等变体。

RLHF DPO preference-learning alignment LLM-training

RLHF vs DPO：基于人类反馈训练LLM（2026）

偏好学习是将原始的、预测下一个token的基础模型转变为有用、无害、诚实助手的关键。两种主流方法是RLHF（基于人类反馈的强化学习）和DPO（直接偏好优化）。它们追求相同目标——使模型与人类偏好对齐——但路径截然不同。

RLHF流程

RLHF是首个对齐聊天模型背后的经典方法，包含三个阶段：

监督微调（SFT）： 在高质量演示数据上训练基础模型，使其具备基本的指令遵循能力。

奖励模型（RM）： 收集人类偏好数据（成对比较：“回答A优于B”），训练一个模型将偏好预测为标量奖励。

RL优化（PPO）： 使用强化学习（通常是PPO）更新策略模型以最大化奖励，同时通过KL惩罚防止其偏离SFT模型过远。

该方法效果极佳，但复杂且不稳定——你需要训练和部署多个模型，并调优一个棘手的RL循环。

DPO：跳过奖励模型

DPO将奖励模型+RL阶段压缩为一个直接在偏好对上的监督损失。没有单独的奖励模型，也没有RL循环——你优化策略以增加偏好回答的可能性，降低非偏好回答的可能性，同时目标函数中隐式包含了KL约束。

结果：训练更简单、更稳定，且通常能达到与RLHF相当的质量。这种简洁性使得DPO成为许多开源模型对齐工作的默认选择。

如何选择

RLHF（PPO）DPO

组件SFT + 奖励模型 + RLSFT + 一个偏好损失稳定性棘手稳定计算/复杂度高较低适用场景最大控制，大型团队大多数团队，快速迭代

两者都从SFT模型开始，需要良好的偏好数据——带有人类（或AI）判断哪条更好的回答对。与一般微调一样，数据质量至关重要。关于监督阶段和适配器，请参阅LoRA微调。

常见问题

DPO是否严格优于RLHF？ 更简单且通常效果相当；RLHF在精心调优和充足资源下仍可能略胜一筹。 DPO需要RL背景吗？ 不需要——它是一个监督损失，这正是其吸引力所在。 偏好数据从何而来？ 人类比较或AI反馈（RLAIF）；质量和一致性是关键。 两者都需要先进行SFT吗？ 是的——两者都从监督微调模型开始。

总结

RLHF通过奖励模型加RL对齐模型——强大但复杂。DPO通过单一偏好损失和更少的机制实现类似结果，成为实用的默认选择。无论哪种方式，关键在于在坚实的SFT模型基础上拥有干净的偏好数据。

*最后更新：2026年6月。这是一个快速发展的研究领域——请对照最新文献验证当前最佳实践。*

所属主题：模型微调与训练

Getting Started

Learn how to get started with this application.

Learn more

Installation Guide

RLHF vs DPO：基于人类反馈训练LLM——2025技术指南

RLHF vs DPO：基于人类反馈训练LLM——2025技术指南

RLHF vs DPO：基于人类反馈训练LLM（2026）

RLHF流程

DPO：跳过奖励模型

如何选择

相关方法

常见问题

总结

Documentation

Getting Started

Learn more