模型
英伟达开源 Nemotron 3 Ultra:550B 参数混合 Mamba-MoE 模型,支持百万上下文与 Agent 推理
英伟达于 2026 年 6 月开源 Nemotron 3 Ultra,这是一款 550B 总参数、55B 激活参数的混合 Mamba-Attention LatentMoE 模型,原生支持 100 万 token 上下文,专为智能体(Agent)推理设计。模型在 Hugging Face 开源底座、SFT 微调版及 NVFP4 量化权重,并配套训练数据集、配方和推理代码。
模型架构与训练
- 架构:108 层堆叠,交替使用 Mamba2 块与稀疏 Attention 块,每层 512 专家,激活 Top22,Latent 隐空间 2048。
- 预训练:两阶段共 20 万亿 token,第一阶段(15T)侧重多样性,第二阶段(5T)提升高质量数据比例。采用 NVFP4 四比特预训练,与 BF16 损失差距低于 0.4%。
- 长上下文扩展:预训练末尾追加 33B token 的百万上下文持续训练,92% 序列长度为 1M。
性能表现
- 推理吞吐:在 8K 输入/64K 输出长 Agent 场景下,相比 GLM-5.1、Kimi-K2.6、Qwen-3.5 吞吐量分别提升 5.9×、4.8×、1.6×,精度持平。
- 长上下文:1M 长度 RULER 基准得分 76.83,竞品无结果。
- 通用基准:MMLU-Pro、GPQA、MATH、HumanEval/MBPP 等多项领先。
后训练与 Agent 能力
- 两阶段 SFT:覆盖 10+ 垂直领域,包括长上下文、多力度推理、多语言安全、Agent 轨迹等。
- 统一 RLVR:基于异步 GRPO 优化,覆盖终端、代码、检索、数学等场景。
- MOPD 多教师蒸馏:核心创新,训练十余个领域专用教师模型,通过在线蒸馏融合到主模型,解决多领域训练信号稀释问题。
配套工具:NeMo AutoModel
英伟达同时开源 NeMo AutoModel,专为 MoE 模型微调优化。在 Hugging Face Transformers v5 基础上,仅需一行 import 即可实现:
- 微调加速:Qwen3-30B-A3B 上训练吞吐提升 3.69 倍(TPS/GPU 从 3075 到 11340)。
- 显存降低:峰值内存减少 29%-32%。
- 核心技术:专家并行(EP)、DeepEP 通信融合、TransformerEngine 内核加速。
开源与影响
Nemotron 3 Ultra 的全栈开源(模型权重、训练数据、配方、推理代码)降低了大规模 MoE 模型的门槛,其混合架构和 Agent 优化为长上下文、多工具调用场景提供了高效方案。NeMo AutoModel 则进一步简化了 MoE 微调工程,有望推动社区应用。
2026年6月28日来源:综合整理
相关资讯
谷歌开源26B文本扩散MoE模型DiffusionGemma,生成速度最高提升4倍
6月14日 · 综合整理
Kimi K2.7 Code 发布:代码与Agent能力提升,Token消耗降低30%
6月15日 · 综合整理
Meta 发布 Llama 4 开源:400B 参数模型可用
4月1日 · Meta AI
豆包大模型2.1发布:Coding与Agent能力跨越生产级质变点
6月23日 · 综合整理
豆包专业版上线,开启付费模式:Agent办公任务实测与定价解析
6月26日 · 综合整理
智谱GLM-5.2发布并开源:Code Arena全球可用模型第一,1M上下文长程编程能力跃升
6月19日 · 综合整理