简单来说,以往芯片之间的数据传输就像城市堵车,而昇腾 384 则像在它们之间开辟了一条 “高速通道”,让整个集群像一台统一的大型计算机高效运行。通过系统级优化,华为实现了资源调度与计算性能的显著提升,为 AI 模型训练带来更高的速度、更低的能耗与更强的稳定性。此外,超节点架构还能更好地支持混合专家 MoE 大模型的推理,实现 “一卡一专家”,一个超节点可以支持 384 个专家并行推理,极大提升效率。同时,超节点还能支持 “一卡一算力任务”,灵活分配资源,提升任务并行处理,减少等待,将算力有效使用率(MFU)提升 50% 以上。