今年 2 月,DeepSeek 开源包括 DeepEP 在内的五大代码库,展示出利用有限硬件资源接近万卡集群性能的潜力。其中,DeepEP 以突破性方法将通信效率提升 300%,成功摆脱 MoE 架构大模型对英伟达 NCCL 的依赖。但在成本较低、应用广泛的 RoCE 网络环境中,DeepEP 性能欠佳,限制了其应用范围。
腾讯星脉网络团队迅速行动,深入研究后发现双端口网卡带宽利用率不足和 CPU 控制面交互时延这两大关键瓶颈。随后,腾讯凭借在 RoCE 网络领域的深厚积累展开技术攻关。通过拓扑感知的多 QP 建链技术,智能分配数据流,极大提升了双端口网卡带宽利用率;基于 IBGDA 技术优化,让 “控制面” 操作绕过 CPU “中转”,降低延迟与能耗;提出 “QP 内时序锁” 机制,解决 GPU 直接 “对话” 时数据传输顺序混乱问题,确保多个 GPU 间数据精准有序传输。