EN
返回资讯列表
模型

英伟达开源 Nemotron 3 Ultra:550B 参数混合 Mamba-MoE 模型,支持百万上下文与 Agent 推理

英伟达于 2026 年 6 月开源 Nemotron 3 Ultra,这是一款 550B 总参数、55B 激活参数的混合 Mamba-Attention LatentMoE 模型,原生支持 100 万 token 上下文,专为智能体(Agent)推理设计。模型在 Hugging Face 开源底座、SFT 微调版及 NVFP4 量化权重,并配套训练数据集、配方和推理代码。

模型架构与训练

  • 架构:108 层堆叠,交替使用 Mamba2 块与稀疏 Attention 块,每层 512 专家,激活 Top22,Latent 隐空间 2048。
  • 预训练:两阶段共 20 万亿 token,第一阶段(15T)侧重多样性,第二阶段(5T)提升高质量数据比例。采用 NVFP4 四比特预训练,与 BF16 损失差距低于 0.4%。
  • 长上下文扩展:预训练末尾追加 33B token 的百万上下文持续训练,92% 序列长度为 1M。

性能表现

  • 推理吞吐:在 8K 输入/64K 输出长 Agent 场景下,相比 GLM-5.1、Kimi-K2.6、Qwen-3.5 吞吐量分别提升 5.9×、4.8×、1.6×,精度持平。
  • 长上下文:1M 长度 RULER 基准得分 76.83,竞品无结果。
  • 通用基准:MMLU-Pro、GPQA、MATH、HumanEval/MBPP 等多项领先。

后训练与 Agent 能力

  • 两阶段 SFT:覆盖 10+ 垂直领域,包括长上下文、多力度推理、多语言安全、Agent 轨迹等。
  • 统一 RLVR:基于异步 GRPO 优化,覆盖终端、代码、检索、数学等场景。
  • MOPD 多教师蒸馏:核心创新,训练十余个领域专用教师模型,通过在线蒸馏融合到主模型,解决多领域训练信号稀释问题。

配套工具:NeMo AutoModel

英伟达同时开源 NeMo AutoModel,专为 MoE 模型微调优化。在 Hugging Face Transformers v5 基础上,仅需一行 import 即可实现:

  • 微调加速:Qwen3-30B-A3B 上训练吞吐提升 3.69 倍(TPS/GPU 从 3075 到 11340)。
  • 显存降低:峰值内存减少 29%-32%。
  • 核心技术:专家并行(EP)、DeepEP 通信融合、TransformerEngine 内核加速。

开源与影响

Nemotron 3 Ultra 的全栈开源(模型权重、训练数据、配方、推理代码)降低了大规模 MoE 模型的门槛,其混合架构和 Agent 优化为长上下文、多工具调用场景提供了高效方案。NeMo AutoModel 则进一步简化了 MoE 微调工程,有望推动社区应用。

2026年6月28日来源:综合整理

延伸阅读

想深入了解该主题,查看站内相关教程与解析。

查看相关主题