一、算法与算力的双重革命
DeepSeek R1 的夺冠源于其 5 月 28 日升级的最新版本。通过引入强化学习与符号推理的混合架构,该模型在解答题中展现出严谨的逻辑链条,例如在第 16 题数列与函数综合题中,其解题步骤与标准答案高度吻合,获得 15 分满分。值得关注的是,DeepSeek R1 虽在 OCR 识别上存在短板(需依赖其他 AI 转写文本),但其数学推理速度较前代提升 40%,尤其在涉及对数函数的选择题中,通过多模态思维链补全,将错误率控制在 5% 以内。
讯飞星火 X1 则以 70B 的较小模型体量实现 141 分的突破,其核心竞争力在于教育领域的深度积累。基于全国产算力平台训练的 X1,整合了 20 余年 K12 题库数据,在应用题场景中表现尤为突出。例如在第 18 题概率统计题中,其不仅快速构建数学模型,更通过可视化图表辅助推理,最终以 17 分满分完成作答。这种 “数据 + 场景” 的双重优势,使其在复杂问题处理上超越 GPT o3 等国际模型。

二、AI 解题的范式突破
本次测试揭示了大模型在数学推理上的三大进步:
- 逻辑链完整性:DeepSeek、讯飞星火等模型在解答题中普遍采用 “问题拆解 – 公式推导 – 结论验证” 的三段式结构,步骤得分率达 92% 以上。
- 多模态协同:面对含图表的题目,通义千问 Qwen3-235B 通过图像语义分割技术,将向量图示转化为数学表达式,准确率较纯文本模型提升 30%。
- 错误修正机制:豆包 Seed-Thinking-v1.5 在第 8 题答错后,通过自我反思模块生成 “错误原因分析报告”,这种元认知能力标志着 AI 从 “解题机器” 向 “思维伙伴” 的进化。
但测试也暴露技术短板:腾讯混元 Hunyuan T1 因训练数据中立体几何题型覆盖不足,在第 16 题中完全失分;文心 X1 Turbo 则因多选题漏选机制不完善,导致总分仅 121 分。