2026年2月10日,一则关于“长城世恒X-AIGC工作站”的评测消息在技术圈引发了广泛关注:该工作站通过搭载4张英特尔锐炫Pro B60显卡,构建出96GB的显存池,成功实现了千人同时在线聊天。这不仅是硬件的简单堆叠,更是中小企业本地化部署大模型在成本和效率上的一次显著提升。
这套“暴力美学”方案的核心,在于英特尔锐炫Pro B60这款专为AI推理设计的显卡。它基于先进的Xe2微架构,单卡配备了24GB GDDR6显存,带宽高达456GB/s。虽然在游戏领域它可能并非首选,但在AI推理领域,这24GB显存成为其强大优势。面对Llama-3.1-8B这类主流模型,单卡运行已绰绰有余;当4张显卡通过PCIe 5.0接口协同工作时,聚合的96GB显存足以使32B甚至100B级别的超大模型在本地流畅运行。

评测数据令人咋舌。在运行GPT-OSS-120B这种千亿级参数模型时,该工作站展现了惊人的吞吐能力。测试显示,其极限性能可达700 tok/s(每秒输出Token数)。对于普通用户而言,只要达到10 tok/s就能获得丝滑的对话体验。以此推算,一台工作站理论上可以同时满足70名用户的并发请求。考虑到实际场景中并非所有用户都在持续高强度提问,按照1:15的活跃比计算,这台机器竟然能从容应对1000人同时在线聊天的需求,且系统稳定性极高,请求成功率100%。
更让人惊喜的是它的性价比。相比动辄数万元的竞品,锐炫Pro B60走了一条“甜点级”的路线。配合vLLM 0.5.0等软件的原生支持,它不再是简单的硬件拼凑,而是经过深度适配的软硬一体化方案。特别是在高并发场景下,随着批处理效应的显现,单步推理效率反而提升,这种“越忙越快”的特性非常适合企业级服务。英特尔锐炫Pro B60与长城世恒X-AIGC工作站的组合,用96GB显存打破了云端垄断的幻想,证明了在本地跑大模型,同样可以既实惠又强大。
