当 AI 基础模型以指数级速度迭代进化,AI Agent 逐步迈入规模化商用深水区,AI 基准测试体系却遭遇前所未有的挑战 —— 现有测试题库正被基础模型高频 “攻破”,测试结果与模型真实能力间的偏差持续扩大,难以支撑行业对技术水平的客观评估。在此行业痛点凸显之际,5 月 26 日,红杉中国正式发布自主研发的新一代 AI 基准测试平台 xbench,并同步释出技术研究论文,为行业发展提供新的评估标准。
页码:下一页
汽车
阅读19095
数码
阅读14742
汽车
阅读15901
数码
阅读10290
家电
阅读11879