芯片领域的两大巨头英特尔(Intel)与AMD罕见地深入合作,联合发布了备受关注的“人工智能计算扩展”(AI Compute Extensions,简称ACE)架构白皮书。这一行动标志着x86阵营在面对AI时代的全新挑战时,采取了“团结一致”的策略。ACE架构作为x86指令集的重要扩展,通过引入全新的矩阵加速机制,实现了矩阵计算密度高达16倍的显著提升,为x86生态在AI时代的持续发展注入了强大动力。
突破算力瓶颈,计算密度实现量级跨越
在当前人工智能的发展浪潮中,矩阵乘法已成为神经网络和大语言模型(LLM)运算的核心部分。然而,传统的AVX10等单指令多数据流(SIMD)扩展在处理这类计算时,逐渐暴露出在计算密度和扩展性上的不足。ACE架构应运而生,旨在突破这些限制。

ACE 引入了基于外积运算(outer product operation)的全新矩阵加速机制,并无缝集成了 AVX10 指令集。根据官方白皮书的数据显示,在消耗相同数量输入向量的前提下,ACE 外积运算的计算密度比等效的 AVX10 乘加运算高出整整 16 倍。这意味着在运行同样的 AI 模型时,未来的 x86 处理器将能以极高的能效比和算力效率完成任务,实现了性能的量级跨越。
统一生态标准,全面覆盖 AI 主流格式 此次合作不仅是一次技术上的升级,更是 x86 生态系统的一次重要统一。早在 2024 年 10 月,英特尔与 AMD 就联合成立了 x86 生态系统咨询小组(EAG),旨在推动架构的标准化。ACE 正是该小组推出的四大核心技术特性之一。
在技术细节上,ACE 展现了极强的兼容性与前瞻性。它原生支持 INT8、OCP FP8、OCP MXFP8、OCP MXINT8 以及 BF16 等当前 AI 领域最主流的低精度数据格式。其设计兼顾了灵活性与扩展性,旨在构建一套能够覆盖从笔记本电脑、工作站到超级计算机的全场景矩阵加速框架。这种跨平台的统一架构,相比将 AI 计算单纯卸载到专用硬件的方案,能大幅降低开发者的适配门槛与开发成本。

软硬协同发力,夯实 x86 未来根基 为了让 ACE 架构快速落地,软件生态的适配工作也在全面推进。目前,ACE 已启动对 NumPy、SciPy 等主流 Python 科学计算库,以及 PyTorch、TensorFlow 等行业标准机器学习框架的集成适配工作。