在人工智能算力需求呈指数级增长的背景下,传统架构正遭遇前所未有的瓶颈。近期,一个极具前瞻性的技术构想引起了业界的广泛关注:英伟达正与Meta等科技巨头合作,探索将GPU运算核心直接“嵌入”HBM(高带宽内存)的创新方案,旨在从物理层面重构数据流动路径,以突破当前AI训练与推理的性能极限。
这一技术的核心思想是将部分GPU计算单元移入HBM内部,从而深度实现“存内计算”(Computing-in-Memory)。在传统架构中,GPU与HBM通过带宽有限的互连通道进行通信,导致海量数据在运算过程中需要频繁传输,这不仅产生了明显的延迟,还消耗了大量能源。而通过将计算能力部署到存储单元附近,数据传输距离可缩短至芯片级别,这将显著降低延迟和能耗,极大地提高能效比。
HBM本身通过垂直堆叠多个DRAM芯片,已具备远超传统内存的带宽优势。目前其底层基底裸片主要负责通信功能,而未来即将量产的HBM4,已计划在基底中集成内存控制器。英伟达此次提出的“GPU核心内嵌”方案,是在此基础上的进一步跃迁——在HBM的基底裸片中集成轻量化GPU核心,形成“存储-计算”一体化模块。

这一设想若得以实现,将带来多重优势:首先,主GPU的负载将被有效分担,可专注于更复杂的并行计算任务;其次,局部计算任务可在HBM内部就近完成,大幅减少对外部总线的依赖,缓解“内存墙”问题;最后,整体系统的能效和吞吐能力将获得质的提升,尤其适用于大模型推理、边缘AI等对实时性要求极高的场景。
然而,该技术仍面临严峻挑战。HBM基底受硅通孔(TSV)工艺限制,可用空间极为有限,难以容纳复杂计算单元。同时,GPU核心属于高功耗、高发热模块,如何在密闭堆叠结构中实现有效散热与供电,避免热堆积成为性能瓶颈,是工程落地的关键难题。
尽管如此,英伟达与Meta等公司的联合探索,已为AI硬件发展指明了新方向。这不仅是技术上的大胆尝试,更是对“算力焦虑”时代下系统级创新的积极回应。未来,随着先进封装、3D集成与热管理技术的进步,GPU与HBM的深度融合或将重塑AI芯片架构。
