英伟达战略转向：搁置Rubin CPX，以Groq LPU重塑AI推理新范式

2026-04-01

在2026年3月的GTC大会上，英伟达对其AI芯片的发展规划进行了调整，其中最引人注目的变化是，Rubin CPX芯片原本的计划被取消。官方随后确认，该项目已被搁置。这一决定表面上看似只是产品迭代，实则反映出AI产业正经历一次深刻的转变，即从重视“训练为王”转向“推理优先”。英伟达通过这一战略性的调整，将重心全面转向新收购的Groq LPU（语言处理单元）技术，为即将到来的AI智能体（Agent）时代奠定基础。

AI推理过程可分为两个阶段：计算密集型的“预填充”（Prefill）和对延迟敏感型的“解码”（Decode）。传统GPU在处理预填充阶段时表现优异，然而在需要实时生成文本的解码阶段，其性能常常受限于内存带宽瓶颈。这正是英伟达此次战略调整的关键因素。Rubin CPX原本是为加速解码阶段设计的GPU变种，但相比之下，Groq LPU的架构从设计之初就专注于解决解码任务的难题。英伟达的决定意味着放弃通用GPU包打天下的想法，转而采纳更为激进的异构计算策略。

Groq LPU的颠覆性在于其独特的架构设计。它摒弃了GPU依赖的高带宽内存（HBM），转而采用总计500MB的片上SRAM。尽管容量不大，但其高达150 TB/s的内存带宽，是HBM4的近7倍，从根本上消除了数据读取的等待时间。更关键的是其“确定性数据流架构”：所有计算指令的调度在编译阶段就已预先排定，如同编排好的交响乐，运行时没有任何动态调度的不确定性。这使得LPU在生成每一个文本令牌（Token）时，都能像精密时钟一样准时、高效，将AI推理从一种“概率性的信息处理”转变为“确定性的物理响应”。

在英伟达构建的Vera Rubin系统中，分工已十分明确：Rubin GPU负责计算繁重的预填充和注意力机制，而Groq LPU则作为“加速器之上的加速器”，专门负责对延迟极度敏感的前馈网络执行与令牌生成。这种“解耦推理”架构，使得系统在同等功耗下的吞吐量提升了35倍以上，能将AI智能体间的通信速度从每秒100个令牌提升至1500个以上，真正实现智能体间的自主高效协作。

最新文章

长安汽车获批L4级Robotaxi测试牌照：天枢智能端到端大模型加持，500万公里零事故重塑无人驾驶新模式

阅读14151

一加Nord Buds 4 Pro海外发布：55dB旗舰降噪+54小时续航，296元重塑TWS音质

阅读11063

希捷FireCuda X1070系列发布：7200MB/s读速+ROG Xbox Ally认证，239.99美元起重塑游戏存储新玩法

阅读14318

技嘉MO32U24显示器发布：31.5英寸4K 240Hz QD-OLED+黑曜保护膜，5399元重塑高端电竞画质

阅读15537

XPPen Artist Pro 27 (Gen 2) 发布：27英寸4K 120Hz大屏+双16K压感笔，重塑专业创作与协作性能

阅读11561