在AI算力竞赛中,专为推理设计的LPU(语言处理单元)正以颠覆性技术挑战GPU的统治地位。这一硬件新星通过架构革新、能效优化与场景定制,实现了对传统GPU的高效超越。

架构革新突破性能瓶颈。LPU采用时序指令集架构与片上SRAM,数据读写速度比GPU快20倍,彻底打破“内存墙”。如Groq LPU的230MB SRAM与80TB/s带宽,使大模型推理延迟降低100倍,速度提升10倍,功耗仅为GPU的三分之一。这种“单核流式”设计避免了多线程资源浪费,实现可预测的高性能输出。
页码:下一页