2026年3月29日,国产AI大模型领域传来令人振奋的消息——智谱AI正式发布GLM-5.1模型,并迅速向GLM Coding Plan的所有用户开放使用。这款在GLM-5.0发布仅一个月后的迭代产品,在编程能力上实现了显著提升,官方评测分数大幅增长,并在第三方测试中成为首个超越Claude Sonnet 4.5 Thinking的国产模型,标志着中国大模型在编程领域首次跻身国际前列。
官方数据显示,GLM-5.1在ClaudeCode编码评测中取得了45.3分,相比GLM-5.0的35.4分提高了近28%,并显著缩小了与全球领先编程模型Claude Opus 4.6的差距,如今仅落后2.6分。这一惊人的进步背后,离不开智谱在训练数据、对齐技术和推理工程方面所做的全面优化。模型继续采用混合专家(MoE)架构,总参数规模达到7440亿,预训练数据量较前一代增加了137.5%,特别是在代码数据的质量和多样性方面进行了针对性的提升。此外,异步Agent RL算法的进一步优化,使模型在复杂任务分解和指令遵循能力上取得了突破。

真正让开发者信服的,是第三方实测的硬核表现。知乎程序员大佬Toyama nao设计的LLM Benchmark Dashboard榜单,涵盖Flutter聊天软件、网页视频剪辑应用等复杂工程测试,要求模型通过10-12轮长文本Prompt交互完成全栈开发。GLM-5.1不仅成为首个通过全部测试的国产模型,更在总扣分项上优于Sonnet 4.5 Thinking,展现出在移动端开发、音视频处理、复杂状态管理等场景的扎实能力。Linux.do社区大佬Mozi的魔方模拟器测试中,GLM-5.1更是少数能正确实现3D旋转、视角控制等功能的模型,打破了国产模型在高难度逻辑任务上的瓶颈。
实际应用场景中,GLM-5.1的进步同样显著。在生成可交互国际象棋网页游戏的测试中,GLM-5.0仅能输出存在交互漏洞的基础框架,而GLM-5.1可一次性生成界面美观、逻辑完整的可运行代码,甚至自动添加注释与使用说明。在LeetCode Hard难度算法题与后端接口开发测试中,其通过率从GLM-5.0的76%跃升至92%,工程化程度已接近国际顶尖模型。

性价比优势进一步放大了GLM-5.1的竞争力。相比Claude Opus 4.6每月百美元级别的高昂费用,GLM Coding Plan Pro套餐仅需30美元(促销价15美元),即可享受接近Opus 4.6 94.6%的编程能力,且请求量充足。更关键的是,模型已完成国内AI备案,支持私有化部署与信创适配,为政企、金融等敏感行业提供了合规的国产替代方案。