智谱发布ZCube架构：不增一块GPU，推理算力提升15%

2026-05-21

5月21日，智谱AI与驭驯网络以及清华大学合作，正式宣布在GLM-5.1线上生产集群中成功部署了新一代网络架构ZCube。这一重大基础设施（Infra）成果，在无需新增GPU、不更换现有服务器，且保持软件栈与应用代码不变的情况下，使GPU平均推理吞吐提升了15%，并将首Token时延（TTFT P99）降低了40.6%。这一优化意味着在同等硬件投入下，算力实现了大幅提升。

随着大模型推理需求的爆发，当集群规模扩展至千卡、万卡级别时，集群内部高频的中间数据传递使得网络逐渐成为制约系统吞吐量和响应速度的核心瓶颈。智谱此次推出的ZCube架构，正是为了打破这一结构性限制。该架构摒弃了传统多层堆叠的Spine-Leaf网络拓扑，采用完全扁平化的二部图设计，通过“单轨+多轨”混合接入机制，确保任意两张GPU之间存在独享的最优路径，从物理拓扑层面彻底消除了流量冲突与网络拥塞的根源。

在GLM-5.1 coding场景的千卡级生产集群实测中，ZCube架构交出了一份极具说服力的成绩单：在保持原有GPU算力与软件环境完全不变的前提下，集群每秒能多响应15%的API请求，直接对应着更高的并发上限和更稳定的峰值用户体验。与此同时，由于取消了Spine层交换机，ZCube架构所需的交换机与光模块硬件成本减少了33%。据测算，在万卡规模的智算集群中，仅网络硬件一项即可节省约2.1亿至6.4亿元的投资，经济效益极为可观。

这项技术的成功落地，标志着AI基础设施的价值重心正在发生深刻迁移。过去几年，行业竞争长期聚焦于“堆显卡”的单一维度，但在GPU供应依然紧张、采购成本高企的背景下，单纯依靠硬件堆叠的边际收益正在递减。ZCube架构证明，通过网络拓扑与模型通信特征的深度耦合，完全可以在不增加硬件投入的情况下，释放出存量算力资产的更大潜能。值得一提的是，ZCube架构此前已被国际顶级网络会议ACM SIGCOMM 2025评价为“显著改变整个行业对网络的认知方式”。

智谱发布ZCube架构：不增一块GPU，推理算力提升15%

最新文章