在2026年3月的GTC大会上,英伟达对其AI芯片的发展规划进行了调整,其中最引人注目的变化是,Rubin CPX芯片原本的计划被取消。官方随后确认,该项目已被搁置。这一决定表面上看似只是产品迭代,实则反映出AI产业正经历一次深刻的转变,即从重视“训练为王”转向“推理优先”。英伟达通过这一战略性的调整,将重心全面转向新收购的Groq LPU(语言处理单元)技术,为即将到来的AI智能体(Agent)时代奠定基础。
AI推理过程可分为两个阶段:计算密集型的“预填充”(Prefill)和对延迟敏感型的“解码”(Decode)。传统GPU在处理预填充阶段时表现优异,然而在需要实时生成文本的解码阶段,其性能常常受限于内存带宽瓶颈。这正是英伟达此次战略调整的关键因素。Rubin CPX原本是为加速解码阶段设计的GPU变种,但相比之下,Groq LPU的架构从设计之初就专注于解决解码任务的难题。英伟达的决定意味着放弃通用GPU包打天下的想法,转而采纳更为激进的异构计算策略。

Groq LPU的颠覆性在于其独特的架构设计。它摒弃了GPU依赖的高带宽内存(HBM),转而采用总计500MB的片上SRAM。尽管容量不大,但其高达150 TB/s的内存带宽,是HBM4的近7倍,从根本上消除了数据读取的等待时间。更关键的是其“确定性数据流架构”:所有计算指令的调度在编译阶段就已预先排定,如同编排好的交响乐,运行时没有任何动态调度的不确定性。这使得LPU在生成每一个文本令牌(Token)时,都能像精密时钟一样准时、高效,将AI推理从一种“概率性的信息处理”转变为“确定性的物理响应”。
在英伟达构建的Vera Rubin系统中,分工已十分明确:Rubin GPU负责计算繁重的预填充和注意力机制,而Groq LPU则作为“加速器之上的加速器”,专门负责对延迟极度敏感的前馈网络执行与令牌生成。这种“解耦推理”架构,使得系统在同等功耗下的吞吐量提升了35倍以上,能将AI智能体间的通信速度从每秒100个令牌提升至1500个以上,真正实现智能体间的自主高效协作。
