2025年12月18日,昆山——在备受瞩目的光合组织2025人工智能创新大会(HAIC2025)上,中科曙光正式推出了其具有里程碑意义的人工智能算力基础设施——scaleX万卡超集群。作为国产万卡级AI集群系统的首次真机亮相,这一成就标志着我国在高端智能计算领域迈出了关键的一步,不仅实现了核心技术的自主可控,更在多项性能指标上达到了全球领先水平。
中科曙光正式推出scaleX万卡超集群:该集群由16个曙光scaleX640超节点组成,通过自主研发的scaleFabric高速网络互联,能够部署高达10240块AI加速卡,总算力超过5EFlops(即每秒500亿亿次浮点运算),为万亿参数大模型训练和科学智能计算等前沿科研任务提供了强大支持。中科曙光高级副总裁李斌表示:“针对AI基础设施在性能、效率、可靠性与扩展性上的极致需求,我们依托多年大型计算机系统研发经验,实现了从架构到网络、从存储到调度的全栈创新。”

该系统的首个核心技术突破在于全球首创的“单机柜级640卡超节点”设计。scaleX640采用超高密度刀片结构与浸没相变液冷技术,将传统机柜的算力密度提升了20倍,PUE值低至1.04,大幅降低能耗,实现绿色高效计算。这一设计不仅节省空间,更显著提升了单位面积的算力产出,为数据中心的集约化部署提供了全新范式。
在互联网络方面,scaleX搭载了曙光自主研发的scaleFabric原生RDMA高速网络,基于国内首款400G类InfiniBand网卡与交换芯片,实现400Gb/s超高带宽和低于1微秒的端侧通信延迟。相比传统InfiniBand网络,通信性能提升达2.33倍,网络总体成本却降低30%,同时支持集群规模轻松扩展至十万卡级别,为未来超大规模模型训练预留充足空间。

为应对大模型训练中数据“存、算、传”瓶颈,scaleX系统通过“超级隧道”与AI数据加速技术,实现芯片级、系统级到应用级的三级数据协同优化,显著提升万卡并发读写效率,使AI加速卡资源利用率提高55%,并增强推理响应速度与结果精准度。
此外,系统还引入超集群数字孪生与智能调度引擎。通过构建物理集群的数字镜像,实现故障定位与修复的全流程可视化管理,保障系统长期可用性达99.99%。智能调度平台可管理万级计算节点,支持每秒万级作业调度,服务十万级用户,极大提升了资源利用效率与运维智能化水平。