英伟达开源模型登顶：Nemotron 3 Super如何击败Kimi与DeepSeek？

2026-05-07

2026年5月，全球AI开源社区经历了一次重大的变革。英伟达（NVIDIA）正式宣布，其最新研发的开源大模型Nemotron 3 Super，在权威榜单EnterpriseOps-Gym的开源类别中，以平均27.3分的出色成绩领先，击败了此前备受关注的Kimi-K2.5（26.2分）和DeepSeek v3.2（23.8分），荣登榜首。这一成绩不仅象征着英伟达在开源AI领域的强势回归，更显示了大模型竞争正从单纯的“参数规模”向“效率与场景应用”的深入发展。

技术破局：以“巧劲”撬动算力瓶颈

Nemotron 3 Super的成功并非仅仅依靠参数数量的堆砌，而是源于架构设计的精妙。这款模型总参数量为1200亿，但在推理过程中仅激活其中约120亿参数。这种高效的混合专家（MoE）架构，不仅使其保持了强大的知识密度，还显著降低了运行成本。

其核心技术亮点在于“潜在混合专家”（LatentMoE）架构。简单来说，它先将输入数据进行压缩，在更小的“潜在空间”内进行专家路由和计算，从而节省出宝贵的内存和通信带宽。节省下来的资源，又被用来增加专家的总数量和每次激活的专家数量，形成了一个“降本增效”的良性循环。这使得它在相同推理成本下，能调用多达四倍的“专家子网络”来处理任务，显著提升了模型的适应能力和精准度。

此外，模型还引入了“多词预测”（MTP）机制，如同为主模型配备了一位高效的“草稿员”。这位“草稿员”会预先猜测接下来的几个词，主模型只需快速验证即可，猜对了便直接采纳，省去了逐一计算的时间。这种投机解码的方式，让模型的推理速度得到了质的飞跃。

性能为王：速度是核心护城河

在性能表现上，Nemotron 3 Super展现了惊人的效率优势。官方数据显示，其吞吐量较上一代产品提升了超过五倍。在与同量级开源模型的直接对比中，其推理速度是GPT-OSS-120B的2.2倍，更是达到了Qwen3.5-122B的7.5倍。

这种速度优势，在AI智能体（Agent）应用场景中尤为关键。当多个智能体协同工作时，会产生海量的交互Token，导致成本飙升和响应延迟，即所谓的“上下文爆炸”与“推理税”。Nemotron 3 Super高达100万Token的上下文窗口，能让智能体完整保留工作流状态，防止目标偏移；而其超快的推理速度，则能有效降低多步推理的成本，使其成为构建大规模、复杂AI智能体系统的理想选择。在OpenClaw任务成功率上，它达到了85.6%，与GPT-5.4等顶尖闭源模型不相上下。

生态阳谋：开源背后的战略野心

英伟达此次采取了极为开放的策略，不仅开源了模型权重，更将超过10万亿Token的训练数据集、完整的训练方法论乃至15个强化学习环境全部公之于众。这一“全家桶”式的开源，其战略意图远超模型本身。