框架

腾讯混元开源UniRL：统一多模态强化学习训练框架

腾讯混元团队于2025年6月17日正式开源UniRL，一个面向多模态生成模型的分布式强化学习（RL）后训练框架。该框架由庞天宇团队主导，旨在解决当前AIGC领域多模态RL训练“各自为战”的碎片化问题——图像扩散模型、视频生成、VLM和LLM各有独立技术栈，导致工程重复、算法创新受阻。

背景：多模态RL的“孤岛困境”

随着Stable Diffusion、FLUX、Wan、HunyuanVideo等模型快速发展，AIGC能力边界不断拓展，但RL训练基础设施严重滞后。与LLM的RL训练相比，多模态生成RL面临四大挑战：

生成过程本质不同：LLM处理离散token，图像/视频生成涉及连续潜空间去噪轨迹；统一多模态模型混合token生成与latent去噪，credit assignment和策略更新更复杂。
系统闭环不稳定：rollout、log-prob replay与策略更新跨越多个模型和后端，训练侧必须严格复现采样侧条件，否则产生Training-Inference Mismatch，引入策略梯度bias。
奖励系统更重：多模态RL的reward依赖VLM、OCR、美学模型、视频理解模型等多模态评估链路，成本高。
轨迹存储与显存压力大：中间产物为高维latent、噪声、时间步等，视频生成中随分辨率、帧数和去噪步数快速放大。

这些挑战导致行业内“一个模型一套训练代码”，开发者大量时间花在重复工程实现上。

UniRL核心设计：统一抽象与可复用骨架

UniRL不绑定单一模型族、算法或训练栈，以Ray worker group、Hydra flat recipe、可组合训练后端和可插拔rollout engine为核心，抽象出多模态RL闭环契约：rollout → reward → advantage → train → weight-sync。

框架通过类型化rollout数据模型（track）表示不同阶段生成轨迹：AR阶段为TextSegment，图像生成阶段为LatentSegment，不同track通过parent-child关系连接，自然支持Bagel、HunyuanImage 3.0等先AR文本思考再DiT图像生成的链式流程。

支持的模型与算法

UniRL覆盖主流多模态生成模型：

图像生成：SD3/3.5、Qwen-Image、Z-Image、FLUX.2-Klein
视频生成：HunyuanVideo 1.0&1.5、WAN系列
大语言模型：Qwen3系列
多模态理解模型：Qwen-VL系列
原生统一多模态模型：HunyuanImage 3.0、Bagel
组合式模型：LLM/VLM + Diffusion的Prompt-Enhancer架构

内置多种RL算法：

Policy-gradient家族：FlowGRPO、DanceGRPO、MixGRPO、LLM/VLM GRPO
Forward-process家族：DiffusionNFT
腾讯混元自研算法：Flow-DPPO（针对flow/diffusion模型，用逐步KL散度近端约束替代PPO ratio clipping）和DRPO（用advantage加权的平滑策略偏移正则项替代硬裁剪/掩码）

奖励组件集成CLIPScore、GOT-OCR-2.0、PickScore、HPSv2/v3、ImageReward、UnifiedReward、GenEval2、WISE、VideoPickScore、VideoAlign等。

影响与意义

UniRL将多模态RL训练中重复、易错、极难复用的系统工程问题沉到框架底层，使开发者不必反复重写rollout、reward、轨迹传输和训练对齐逻辑。框架仍处于活跃迭代阶段，后续将完善核心训练闭环、扩展rollout engine支持、优化大规模训练性能。

2026年6月17日来源：综合整理

tencent hunyuan unirl reinforcement-learning multimodal open-source aigc

腾讯混元开源UniRL：统一多模态强化学习训练框架

背景：多模态RL的“孤岛困境”

UniRL核心设计：统一抽象与可复用骨架

支持的模型与算法

影响与意义

Documentation

Getting Started

Learn more