近日,谷歌在Cloud Next大会上正式发布了第八代张量处理单元(TPUv8)系列,首次采用了“训练+推理”的双芯独立设计策略。其中,TPU 8t由博通负责,主攻超大规模训练;而TPU 8i则与联发科合作,专注于高性价比的推理任务。这标志着谷歌的AI芯片战略从“通用化”向“场景化”的深度转变,旨在为AI智能体时代的算力需求提供更为精准的解决方案。
TPU 8t作为训练领域的性能旗舰,由谷歌与博通联合设计,代号“Sunfish”,其核心目标在于缩短前沿AI模型的开发周期。每个Pod最多可集成9600颗芯片,并配备2PB的高带宽内存,在FP4精度下算力可达121exaflops,较上一代Ironwood提升2.8倍,且同等价格下的性能也提升了2.8倍。TPU 8t创新性地搭载了SparseCore专用加速器,有效解决大模型嵌入查找时的内存访问瓶颈;原生支持FP4浮点精度,不仅使矩阵运算单元的算力翻倍,还进一步降低了能耗。全新的Virgo互联架构将数据中心网络带宽提升了4倍,芯片间互联带宽翻倍,再结合TPU直连存储技术,使数据读取速度提升了10倍,从而彻底解决了训练过程中的“数据饥饿”问题。

TPU 8i则专为推理场景打造,由谷歌与联发科合作设计,代号“Zebrafish”,核心解决AI智能体多步骤推理的延迟痛点。单Pod可扩展至1152颗芯片,FP8精度下算力达11.6exaflops,同等价格下性能较上一代提升80%。其最大亮点是配备384MB片上SRAM,容量是前代的3倍,可将长上下文KV Cache完全保留在芯片内,大幅减少内存访问等待;全新Boardfly网络拓扑将芯片间通信最大跳数从16跳压缩至7跳,全对全通信延迟降低50%;集成集合加速引擎(CAE),专门加速自回归解码与思维链推理的同步操作,片上集合通信延迟降低5倍,彻底消除推理过程中的“等待室效应”。
供应链策略上,谷歌通过“博通+联发科”双合作伙伴布局,实现性能与成本的精准平衡。博通凭借高性能ASIC设计经验,助力TPU 8t实现极致算力密度;联发科则通过手机端侧技术迁移,为TPU 8i提供高性价比设计方案,成本较替代选项低20%-30%。两款芯片均搭载谷歌自研Axion ARM架构CPU,配合第四代液冷技术,每瓦性能较上一代提升超1倍,在电力成为数据中心核心瓶颈的当下,有效控制总体拥有成本。
