风尚咨询

英伟达战略转向:搁置Rubin CPX,以Groq LPU重塑AI推理新范式

2026-04-01
在2026年3月的GTC大会上,英伟达对其AI芯片的发展规划进行了调整,其中最引人注目的变化是,Rubin CPX芯片原本的计划被取消。官方随后确认,该项目已被搁置。这一决定表面上看似只是产品迭代,实则反映出AI产业正经历一次深刻的转变,即从重视“训练为王”转向“推理优先”。英伟达通过这一战略性的调整,将重心全面转向新收购的Groq LPU(语言处理单元)技术,为即将到来的AI智能体(Agent)时代奠定基础。
AI推理过程可分为两个阶段:计算密集型的“预填充”(Prefill)和对延迟敏感型的“解码”(Decode)。传统GPU在处理预填充阶段时表现优异,然而在需要实时生成文本的解码阶段,其性能常常受限于内存带宽瓶颈。这正是英伟达此次战略调整的关键因素。Rubin CPX原本是为加速解码阶段设计的GPU变种,但相比之下,Groq LPU的架构从设计之初就专注于解决解码任务的难题。英伟达的决定意味着放弃通用GPU包打天下的想法,转而采纳更为激进的异构计算策略。
Groq LPU的颠覆性在于其独特的架构设计。它摒弃了GPU依赖的高带宽内存(HBM),转而采用总计500MB的片上SRAM。尽管容量不大,但其高达150 TB/s的内存带宽,是HBM4的近7倍,从根本上消除了数据读取的等待时间。更关键的是其“确定性数据流架构”:所有计算指令的调度在编译阶段就已预先排定,如同编排好的交响乐,运行时没有任何动态调度的不确定性。这使得LPU在生成每一个文本令牌(Token)时,都能像精密时钟一样准时、高效,将AI推理从一种“概率性的信息处理”转变为“确定性的物理响应”。
在英伟达构建的Vera Rubin系统中,分工已十分明确:Rubin GPU负责计算繁重的预填充和注意力机制,而Groq LPU则作为“加速器之上的加速器”,专门负责对延迟极度敏感的前馈网络执行与令牌生成。这种“解耦推理”架构,使得系统在同等功耗下的吞吐量提升了35倍以上,能将AI智能体间的通信速度从每秒100个令牌提升至1500个以上,真正实现智能体间的自主高效协作。

最新文章

长安汽车获批L4级Robotaxi测试牌照:天枢智能端到端大模型加持,500万公里零事故重塑无人驾驶新模式

汽车

 

阅读14151

一加Nord Buds 4 Pro海外发布:55dB旗舰降噪+54小时续航,296元重塑TWS音质

数码

 

阅读11063

希捷FireCuda X1070系列发布:7200MB/s读速+ROG Xbox Ally认证,239.99美元起重塑游戏存储新玩法

数码

 

阅读14318

技嘉MO32U24显示器发布:31.5英寸4K 240Hz QD-OLED+黑曜保护膜,5399元重塑高端电竞画质

数码

 

阅读15537

XPPen Artist Pro 27 (Gen 2) 发布:27英寸4K 120Hz大屏+双16K压感笔,重塑专业创作与协作性能

数码

 

阅读11561

京ICP备2025103387号-2