白皮书明确AI集群网络的三大应用场景:训练集群需支持AllReduce、Broadcast等高带宽同步模式,推理集群强调低延迟与无损传输,混合部署则需兼顾并行作业与C/S服务。通过超以太网(UEC)架构的双模协同设计,网络可动态适配不同负载,实现资源利用率最大化。例如,在千亿参数模型训练中,端到端时延降低至微秒级,有效减少GPU同步等待时间。
高通量以太网联盟以“开放生态”为理念,推动ETH+协议与主流AI框架兼容。目前,协议已适配NVIDIA NCCL、AMD RCCL等高性能通信库,并通过LibFabric接口实现跨平台调用。此外,白皮书配套发布的开源硬件IP、商业版IP及验证体系,为芯片厂商提供标准化开发路径。多家国产网络芯片企业已基于ETH+展开研发,预计明年将推出首批商用集群产品。
