2026年5月6日,科技界见证了一次历史性的“和解”。OpenAI联手AMD、博通、英特尔、微软以及英伟达这五大科技巨头,正式推出了名为“多路径可靠连接”(MRC)的开放网络协议。这一合作打破了芯片厂商间长期的竞争隔阂,标志着AI基础设施建设从“堆砌算力”阶段迈向“提升效率”的新纪元。
长期以来,AI行业一直面临一种令人困扰的“隐形浪费”:尽管GPU的算力不断增强,但在进行大规模集群训练时,由于网络拥堵或链路问题,昂贵的GPU常常因等待数据传输而处于“空转”状态。数据表明,许多万卡集群的利用率甚至低于40%,这意味着大约六成的算力资源被网络瓶颈所浪费。MRC协议的诞生,正是为了解决这一巨大的算力浪费问题。

MRC协议的核心逻辑在于“多路径”与“高韧性”。它允许数据在集群内部通过多条并行的物理路径传输,而非依赖单一链路。当某条路径出现延迟或故障时,系统能在微秒级内自动检测并切换至健康路径。这种机制就像是为AI数据中心构建了一套智能交通系统,即使某条高速公路堵车,数据流也能瞬间绕行,确保GPU始终处于满负荷工作状态。
此次合作的阵容堪称“全明星队”,涵盖了从芯片设计、网络硬件到云平台的每一个环节。英特尔贡献了以太网控制器技术,将网络处理从CPU卸载至专用硬件;英伟达与AMD则负责确保协议在GPU层面的深度适配;博通提供了底层的交换芯片支持;而微软则提供了Fairwater超级计算机集群作为验证场。这种软硬件协同的模式,极大地加速了MRC的落地进程。

目前,MRC协议已不再是纸上谈兵,而是全面部署于OpenAI用于训练前沿模型的超级计算机中,包括得克萨斯州的甲骨文云基础设施站点。它也将成为OpenAI宏伟的“星门”(Stargate)超算的基础网络架构。更值得关注的是,该协议已通过开放计算项目(OCP)向全行业开放,这意味着全球其他AI企业也能利用这一标准来提升集群效率,降低大模型训练的门槛。