风尚咨询

积算科技携手赤兔引擎:GPU 算力需求减半,重构 AI 推理能效新标杆

2025-07-31
2025 年 7 月,北京积算科技宣布其 PowerFul-AI 平台全面集成赤兔推理引擎,标志着 AI 大模型部署进入 “算力平权” 新纪元。这一由清程极智与清华大学联合研发的革命性技术,通过底层算子重构与编译优化,首次实现非 FP8 精度 GPU 原生运行 FP8 模型,在保持零精度损失的前提下,将 GPU 算力需求降低 50%,为企业提供 “成本腰斩、性能翻倍” 的推理解决方案。
赤兔引擎的核心价值在于跨架构 FP8 原生支持。通过对 GeMM、MoE 等关键算子的指令级重构,它突破了 FP8 模型对英伟达 Hopper 架构(H100/H200)的依赖,使存量 A800 集群和国产芯片(如沐曦、燧原)也能高效运行 FP8 高精度模型。在积算科技的实测中,部署 DeepSeek-R1-671B 模型时,原需 4 台 8 卡机的算力需求降至 2 台 8 卡机,显存占用同步减半,而推理速度却提升 3.15 倍。这种 “算力减半、性能倍增” 的奇迹,源于赤兔独创的动态量化与稀疏计算技术,在确保模型精度无损的同时,实现硬件资源的极致利用。

最新文章

海盗船SHUGO DDR5限量首发:日系艺术定制与微孔透光工艺,售价约4079元

数码

 

阅读14859

Rambus发布第二代CKD芯片:DDR5内存原生速率突破9600MT/s

数码

 

阅读12111

惠普EliteBook X G2q海外上市:骁龙X2平台加持,顶配1800P高刷OLED屏

数码

 

阅读12719

REDMI Note 17R获进网许可:或首发骁龙4 Gen 4,6月有望亮相

数码

 

阅读13919

be quiet! 暗岩6系列风冷上市:300W解热与静音模式兼顾,售价699元起

数码

 

阅读12448

京ICP备2025103387号-2