96GB显存“巨无霸”！英特尔锐炫Pro B60四卡联动，千人并发聊天不是梦

2026-02-12

2026年2月10日，一则关于“长城世恒X-AIGC工作站”的评测消息在技术圈引发了广泛关注：该工作站通过搭载4张英特尔锐炫Pro B60显卡，构建出96GB的显存池，成功实现了千人同时在线聊天。这不仅是硬件的简单堆叠，更是中小企业本地化部署大模型在成本和效率上的一次显著提升。

这套“暴力美学”方案的核心，在于英特尔锐炫Pro B60这款专为AI推理设计的显卡。它基于先进的Xe2微架构，单卡配备了24GB GDDR6显存，带宽高达456GB/s。虽然在游戏领域它可能并非首选，但在AI推理领域，这24GB显存成为其强大优势。面对Llama-3.1-8B这类主流模型，单卡运行已绰绰有余；当4张显卡通过PCIe 5.0接口协同工作时，聚合的96GB显存足以使32B甚至100B级别的超大模型在本地流畅运行。

评测数据令人咋舌。在运行GPT-OSS-120B这种千亿级参数模型时，该工作站展现了惊人的吞吐能力。测试显示，其极限性能可达700 tok/s（每秒输出Token数）。对于普通用户而言，只要达到10 tok/s就能获得丝滑的对话体验。以此推算，一台工作站理论上可以同时满足70名用户的并发请求。考虑到实际场景中并非所有用户都在持续高强度提问，按照1:15的活跃比计算，这台机器竟然能从容应对1000人同时在线聊天的需求，且系统稳定性极高，请求成功率100%。

更让人惊喜的是它的性价比。相比动辄数万元的竞品，锐炫Pro B60走了一条“甜点级”的路线。配合vLLM 0.5.0等软件的原生支持，它不再是简单的硬件拼凑，而是经过深度适配的软硬一体化方案。特别是在高并发场景下，随着批处理效应的显现，单步推理效率反而提升，这种“越忙越快”的特性非常适合企业级服务。英特尔锐炫Pro B60与长城世恒X-AIGC工作站的组合，用96GB显存打破了云端垄断的幻想，证明了在本地跑大模型，同样可以既实惠又强大。

96GB显存“巨无霸”！英特尔锐炫Pro B60四卡联动，千人并发聊天不是梦

最新文章