AI 数学巅峰对决！七家大模型挑战 2025 高考数学，DeepSeek、讯飞星火破 140 分创纪录

2025-06-10

一、算法与算力的双重革命

DeepSeek R1 的夺冠源于其 5 月 28 日升级的最新版本。通过引入强化学习与符号推理的混合架构，该模型在解答题中展现出严谨的逻辑链条，例如在第 16 题数列与函数综合题中，其解题步骤与标准答案高度吻合，获得 15 分满分。值得关注的是，DeepSeek R1 虽在 OCR 识别上存在短板（需依赖其他 AI 转写文本），但其数学推理速度较前代提升 40%，尤其在涉及对数函数的选择题中，通过多模态思维链补全，将错误率控制在 5% 以内。

讯飞星火 X1 则以 70B 的较小模型体量实现 141 分的突破，其核心竞争力在于教育领域的深度积累。基于全国产算力平台训练的 X1，整合了 20 余年 K12 题库数据，在应用题场景中表现尤为突出。例如在第 18 题概率统计题中，其不仅快速构建数学模型，更通过可视化图表辅助推理，最终以 17 分满分完成作答。这种 “数据 + 场景” 的双重优势，使其在复杂问题处理上超越 GPT o3 等国际模型。

二、AI 解题的范式突破

本次测试揭示了大模型在数学推理上的三大进步：

逻辑链完整性：DeepSeek、讯飞星火等模型在解答题中普遍采用 “问题拆解 – 公式推导 – 结论验证” 的三段式结构，步骤得分率达 92% 以上。
多模态协同：面对含图表的题目，通义千问 Qwen3-235B 通过图像语义分割技术，将向量图示转化为数学表达式，准确率较纯文本模型提升 30%。
错误修正机制：豆包 Seed-Thinking-v1.5 在第 8 题答错后，通过自我反思模块生成 “错误原因分析报告”，这种元认知能力标志着 AI 从 “解题机器” 向 “思维伙伴” 的进化。

但测试也暴露技术短板：腾讯混元 Hunyuan T1 因训练数据中立体几何题型覆盖不足，在第 16 题中完全失分；文心 X1 Turbo 则因多选题漏选机制不完善，导致总分仅 121 分。