2026年5月,全球AI开源社区经历了一次重大的变革。英伟达(NVIDIA)正式宣布,其最新研发的开源大模型Nemotron 3 Super,在权威榜单EnterpriseOps-Gym的开源类别中,以平均27.3分的出色成绩领先,击败了此前备受关注的Kimi-K2.5(26.2分)和DeepSeek v3.2(23.8分),荣登榜首。这一成绩不仅象征着英伟达在开源AI领域的强势回归,更显示了大模型竞争正从单纯的“参数规模”向“效率与场景应用”的深入发展。
技术破局:以“巧劲”撬动算力瓶颈
Nemotron 3 Super的成功并非仅仅依靠参数数量的堆砌,而是源于架构设计的精妙。这款模型总参数量为1200亿,但在推理过程中仅激活其中约120亿参数。这种高效的混合专家(MoE)架构,不仅使其保持了强大的知识密度,还显著降低了运行成本。

其核心技术亮点在于“潜在混合专家”(LatentMoE)架构。简单来说,它先将输入数据进行压缩,在更小的“潜在空间”内进行专家路由和计算,从而节省出宝贵的内存和通信带宽。节省下来的资源,又被用来增加专家的总数量和每次激活的专家数量,形成了一个“降本增效”的良性循环。这使得它在相同推理成本下,能调用多达四倍的“专家子网络”来处理任务,显著提升了模型的适应能力和精准度。
此外,模型还引入了“多词预测”(MTP)机制,如同为主模型配备了一位高效的“草稿员”。这位“草稿员”会预先猜测接下来的几个词,主模型只需快速验证即可,猜对了便直接采纳,省去了逐一计算的时间。这种投机解码的方式,让模型的推理速度得到了质的飞跃。
性能为王:速度是核心护城河
在性能表现上,Nemotron 3 Super展现了惊人的效率优势。官方数据显示,其吞吐量较上一代产品提升了超过五倍。在与同量级开源模型的直接对比中,其推理速度是GPT-OSS-120B的2.2倍,更是达到了Qwen3.5-122B的7.5倍。
这种速度优势,在AI智能体(Agent)应用场景中尤为关键。当多个智能体协同工作时,会产生海量的交互Token,导致成本飙升和响应延迟,即所谓的“上下文爆炸”与“推理税”。Nemotron 3 Super高达100万Token的上下文窗口,能让智能体完整保留工作流状态,防止目标偏移;而其超快的推理速度,则能有效降低多步推理的成本,使其成为构建大规模、复杂AI智能体系统的理想选择。在OpenClaw任务成功率上,它达到了85.6%,与GPT-5.4等顶尖闭源模型不相上下。

生态阳谋:开源背后的战略野心
英伟达此次采取了极为开放的策略,不仅开源了模型权重,更将超过10万亿Token的训练数据集、完整的训练方法论乃至15个强化学习环境全部公之于众。这一“全家桶”式的开源,其战略意图远超模型本身。