模型

英伟达开源 Nemotron 3 Ultra：550B 参数混合 Mamba-MoE 模型，支持百万上下文与 Agent 推理

英伟达于 2026 年 6 月开源 Nemotron 3 Ultra，这是一款 550B 总参数、55B 激活参数的混合 Mamba-Attention LatentMoE 模型，原生支持 100 万 token 上下文，专为智能体（Agent）推理设计。模型在 Hugging Face 开源底座、SFT 微调版及 NVFP4 量化权重，并配套训练数据集、配方和推理代码。

模型架构与训练

架构：108 层堆叠，交替使用 Mamba2 块与稀疏 Attention 块，每层 512 专家，激活 Top22，Latent 隐空间 2048。
预训练：两阶段共 20 万亿 token，第一阶段（15T）侧重多样性，第二阶段（5T）提升高质量数据比例。采用 NVFP4 四比特预训练，与 BF16 损失差距低于 0.4%。
长上下文扩展：预训练末尾追加 33B token 的百万上下文持续训练，92% 序列长度为 1M。

性能表现

推理吞吐：在 8K 输入/64K 输出长 Agent 场景下，相比 GLM-5.1、Kimi-K2.6、Qwen-3.5 吞吐量分别提升 5.9×、4.8×、1.6×，精度持平。
长上下文：1M 长度 RULER 基准得分 76.83，竞品无结果。
通用基准：MMLU-Pro、GPQA、MATH、HumanEval/MBPP 等多项领先。

后训练与 Agent 能力

两阶段 SFT：覆盖 10+ 垂直领域，包括长上下文、多力度推理、多语言安全、Agent 轨迹等。
统一 RLVR：基于异步 GRPO 优化，覆盖终端、代码、检索、数学等场景。
MOPD 多教师蒸馏：核心创新，训练十余个领域专用教师模型，通过在线蒸馏融合到主模型，解决多领域训练信号稀释问题。

配套工具：NeMo AutoModel

英伟达同时开源 NeMo AutoModel，专为 MoE 模型微调优化。在 Hugging Face Transformers v5 基础上，仅需一行 import 即可实现：

微调加速：Qwen3-30B-A3B 上训练吞吐提升 3.69 倍（TPS/GPU 从 3075 到 11340）。
显存降低：峰值内存减少 29%-32%。
核心技术：专家并行（EP）、DeepEP 通信融合、TransformerEngine 内核加速。

开源与影响

Nemotron 3 Ultra 的全栈开源（模型权重、训练数据、配方、推理代码）降低了大规模 MoE 模型的门槛，其混合架构和 Agent 优化为长上下文、多工具调用场景提供了高效方案。NeMo AutoModel 则进一步简化了 MoE 微调工程，有望推动社区应用。

2026年6月28日来源：综合整理

nvidia nemotron moe mamba open-source agent large-language-model

英伟达开源 Nemotron 3 Ultra：550B 参数混合 Mamba-MoE 模型，支持百万上下文与 Agent 推理

模型架构与训练

性能表现

后训练与 Agent 能力

配套工具：NeMo AutoModel

开源与影响

Documentation

Getting Started

Learn more