风尚咨询

96GB显存“巨无霸”!英特尔锐炫Pro B60四卡联动,千人并发聊天不是梦

2026-02-12
2026年2月10日,一则关于“长城世恒X-AIGC工作站”的评测消息在技术圈引发了广泛关注:该工作站通过搭载4张英特尔锐炫Pro B60显卡,构建出96GB的显存池,成功实现了千人同时在线聊天。这不仅是硬件的简单堆叠,更是中小企业本地化部署大模型在成本和效率上的一次显著提升。
这套“暴力美学”方案的核心,在于英特尔锐炫Pro B60这款专为AI推理设计的显卡。它基于先进的Xe2微架构,单卡配备了24GB GDDR6显存,带宽高达456GB/s。虽然在游戏领域它可能并非首选,但在AI推理领域,这24GB显存成为其强大优势。面对Llama-3.1-8B这类主流模型,单卡运行已绰绰有余;当4张显卡通过PCIe 5.0接口协同工作时,聚合的96GB显存足以使32B甚至100B级别的超大模型在本地流畅运行。
评测数据令人咋舌。在运行GPT-OSS-120B这种千亿级参数模型时,该工作站展现了惊人的吞吐能力。测试显示,其极限性能可达700 tok/s(每秒输出Token数)。对于普通用户而言,只要达到10 tok/s就能获得丝滑的对话体验。以此推算,一台工作站理论上可以同时满足70名用户的并发请求。考虑到实际场景中并非所有用户都在持续高强度提问,按照1:15的活跃比计算,这台机器竟然能从容应对1000人同时在线聊天的需求,且系统稳定性极高,请求成功率100%。
更让人惊喜的是它的性价比。相比动辄数万元的竞品,锐炫Pro B60走了一条“甜点级”的路线。配合vLLM 0.5.0等软件的原生支持,它不再是简单的硬件拼凑,而是经过深度适配的软硬一体化方案。特别是在高并发场景下,随着批处理效应的显现,单步推理效率反而提升,这种“越忙越快”的特性非常适合企业级服务。英特尔锐炫Pro B60与长城世恒X-AIGC工作站的组合,用96GB显存打破了云端垄断的幻想,证明了在本地跑大模型,同样可以既实惠又强大。

最新文章

Rambus发布第二代CKD芯片:DDR5内存原生速率突破9600MT/s

数码

 

阅读17292

惠普EliteBook X G2q海外上市:骁龙X2平台加持,顶配1800P高刷OLED屏

数码

 

阅读11651

REDMI Note 17R获进网许可:或首发骁龙4 Gen 4,6月有望亮相

数码

 

阅读17539

be quiet! 暗岩6系列风冷上市:300W解热与静音模式兼顾,售价699元起

数码

 

阅读10826

叙 Thypoch 发布 Ksana 刹那 35mm f/2:全铜复古手动镜头,售价 3699 元

数码

 

阅读14384

京ICP备2025103387号-2