EN
返回资讯列表
框架

腾讯混元开源UniRL:统一多模态强化学习训练框架

腾讯混元团队于2025年6月17日正式开源UniRL,一个面向多模态生成模型的分布式强化学习(RL)后训练框架。该框架由庞天宇团队主导,旨在解决当前AIGC领域多模态RL训练“各自为战”的碎片化问题——图像扩散模型、视频生成、VLM和LLM各有独立技术栈,导致工程重复、算法创新受阻。

背景:多模态RL的“孤岛困境”

随着Stable Diffusion、FLUX、Wan、HunyuanVideo等模型快速发展,AIGC能力边界不断拓展,但RL训练基础设施严重滞后。与LLM的RL训练相比,多模态生成RL面临四大挑战:

  • 生成过程本质不同:LLM处理离散token,图像/视频生成涉及连续潜空间去噪轨迹;统一多模态模型混合token生成与latent去噪,credit assignment和策略更新更复杂。
  • 系统闭环不稳定:rollout、log-prob replay与策略更新跨越多个模型和后端,训练侧必须严格复现采样侧条件,否则产生Training-Inference Mismatch,引入策略梯度bias。
  • 奖励系统更重:多模态RL的reward依赖VLM、OCR、美学模型、视频理解模型等多模态评估链路,成本高。
  • 轨迹存储与显存压力大:中间产物为高维latent、噪声、时间步等,视频生成中随分辨率、帧数和去噪步数快速放大。

这些挑战导致行业内“一个模型一套训练代码”,开发者大量时间花在重复工程实现上。

UniRL核心设计:统一抽象与可复用骨架

UniRL不绑定单一模型族、算法或训练栈,以Ray worker group、Hydra flat recipe、可组合训练后端和可插拔rollout engine为核心,抽象出多模态RL闭环契约:rollout → reward → advantage → train → weight-sync。

框架通过类型化rollout数据模型(track)表示不同阶段生成轨迹:AR阶段为TextSegment,图像生成阶段为LatentSegment,不同track通过parent-child关系连接,自然支持Bagel、HunyuanImage 3.0等先AR文本思考再DiT图像生成的链式流程。

支持的模型与算法

UniRL覆盖主流多模态生成模型:

  • 图像生成:SD3/3.5、Qwen-Image、Z-Image、FLUX.2-Klein
  • 视频生成:HunyuanVideo 1.0&1.5、WAN系列
  • 大语言模型:Qwen3系列
  • 多模态理解模型:Qwen-VL系列
  • 原生统一多模态模型:HunyuanImage 3.0、Bagel
  • 组合式模型:LLM/VLM + Diffusion的Prompt-Enhancer架构

内置多种RL算法:

  • Policy-gradient家族:FlowGRPO、DanceGRPO、MixGRPO、LLM/VLM GRPO
  • Forward-process家族:DiffusionNFT
  • 腾讯混元自研算法:Flow-DPPO(针对flow/diffusion模型,用逐步KL散度近端约束替代PPO ratio clipping)和DRPO(用advantage加权的平滑策略偏移正则项替代硬裁剪/掩码)

奖励组件集成CLIPScore、GOT-OCR-2.0、PickScore、HPSv2/v3、ImageReward、UnifiedReward、GenEval2、WISE、VideoPickScore、VideoAlign等。

影响与意义

UniRL将多模态RL训练中重复、易错、极难复用的系统工程问题沉到框架底层,使开发者不必反复重写rollout、reward、轨迹传输和训练对齐逻辑。框架仍处于活跃迭代阶段,后续将完善核心训练闭环、扩展rollout engine支持、优化大规模训练性能。

2026年6月17日来源:综合整理