与传统GPU集群相比,GB300 NVL72集群的核心优势在于“一体化设计”。传统架构中,GPU间通信常受制于PCIe带宽和网络延迟,导致算力利用率低下。而NVL72通过全NVLink互联,实现GPU之间的内存池化与无缝数据流动,极大缓解了“算力饥饿”问题。同时,微软在Azure数据中心部署了专用液冷系统与智能电源管理,确保高密度集群在长时间运行下的稳定性与能效。
目前,该集群已正式投入生产环境,服务于微软内部AI团队及部分战略客户,包括OpenAI、Meta等前沿AI研究机构。据透露,某大型语言模型在GB300集群上的训练周期较此前缩短了60%,同时能耗下降约35%。这不仅意味着研发效率的跃升,也为AI模型的快速迭代和商业化应用提供了坚实底座。
