风尚咨询

红杉中国推 xbench 全新 AI 基准测试,于 AI 下半场锚定 “优质问题”

2025-05-26
当 AI 基础模型以指数级速度迭代进化,AI Agent 逐步迈入规模化商用深水区,AI 基准测试体系却遭遇前所未有的挑战 —— 现有测试题库正被基础模型高频 “攻破”,测试结果与模型真实能力间的偏差持续扩大,难以支撑行业对技术水平的客观评估。在此行业痛点凸显之际,5 月 26 日,红杉中国正式发布自主研发的新一代 AI 基准测试平台 xbench,并同步释出技术研究论文,为行业发展提供新的评估标准。

最新文章

全新丰田海拉克斯震撼登场:硬派皮卡再进化

汽车

 

阅读19095

苹果2026秋季战略大洗牌:iPhone 18 Pro携八大升级亮相,首款折叠机定档9月

数码

 

阅读14742

比亚迪储能温控技术再升级:新专利授权助力提升电池安全性

汽车

 

阅读15901

公有云大模型Token服务性能测评结果即将公布

数码

 

阅读10290

海尔发布行业首套AI智慧养老方案,三大机器人重塑未来享老形态

家电

 

阅读11879

京ICP备2025103387号-2