谷歌TPUv8系列正式发布：训练推理双芯分治，博通联发科共筑AI算力新生态

2026-05-09

近日，谷歌在Cloud Next大会上正式发布了第八代张量处理单元（TPUv8）系列，首次采用了“训练+推理”的双芯独立设计策略。其中，TPU 8t由博通负责，主攻超大规模训练；而TPU 8i则与联发科合作，专注于高性价比的推理任务。这标志着谷歌的AI芯片战略从“通用化”向“场景化”的深度转变，旨在为AI智能体时代的算力需求提供更为精准的解决方案。

TPU 8t作为训练领域的性能旗舰，由谷歌与博通联合设计，代号“Sunfish”，其核心目标在于缩短前沿AI模型的开发周期。每个Pod最多可集成9600颗芯片，并配备2PB的高带宽内存，在FP4精度下算力可达121exaflops，较上一代Ironwood提升2.8倍，且同等价格下的性能也提升了2.8倍。TPU 8t创新性地搭载了SparseCore专用加速器，有效解决大模型嵌入查找时的内存访问瓶颈；原生支持FP4浮点精度，不仅使矩阵运算单元的算力翻倍，还进一步降低了能耗。全新的Virgo互联架构将数据中心网络带宽提升了4倍，芯片间互联带宽翻倍，再结合TPU直连存储技术，使数据读取速度提升了10倍，从而彻底解决了训练过程中的“数据饥饿”问题。

TPU 8i则专为推理场景打造，由谷歌与联发科合作设计，代号“Zebrafish”，核心解决AI智能体多步骤推理的延迟痛点。单Pod可扩展至1152颗芯片，FP8精度下算力达11.6exaflops，同等价格下性能较上一代提升80%。其最大亮点是配备384MB片上SRAM，容量是前代的3倍，可将长上下文KV Cache完全保留在芯片内，大幅减少内存访问等待；全新Boardfly网络拓扑将芯片间通信最大跳数从16跳压缩至7跳，全对全通信延迟降低50%；集成集合加速引擎（CAE），专门加速自回归解码与思维链推理的同步操作，片上集合通信延迟降低5倍，彻底消除推理过程中的“等待室效应”。

供应链策略上，谷歌通过“博通+联发科”双合作伙伴布局，实现性能与成本的精准平衡。博通凭借高性能ASIC设计经验，助力TPU 8t实现极致算力密度；联发科则通过手机端侧技术迁移，为TPU 8i提供高性价比设计方案，成本较替代选项低20%-30%。两款芯片均搭载谷歌自研Axion ARM架构CPU，配合第四代液冷技术，每瓦性能较上一代提升超1倍，在电力成为数据中心核心瓶颈的当下，有效控制总体拥有成本。

谷歌TPUv8系列正式发布：训练推理双芯分治，博通联发科共筑AI算力新生态

最新文章