2026年1月,腾讯AI实验室在美国贝尔维尤分部发布了一项具有突破性的研究,提出了一种全新的多对手群组分布鲁棒优化驱动的强化学习方法。这项技术的核心理念,是让AI的训练过程摆脱传统模式的束缚,仿佛为AI配备了一位“智慧导师”,能够根据学习者的实时状态,动态调整教学内容和训练强度,从而显著提升大语言模型的推理能力。
传统训练的困境与“智慧导师”的启示
传统的AI强化学习训练,常常采用一种“一刀切”的静态模式。无论问题的难易程度如何,模型都会被分配相同的注意力和练习时间。这就像一位固执的老师,给所有学生布置完全相同的作业,导致已经掌握知识的学生在重复无效劳动,而在面对真正难点时,分配的精力却又不足。这种结构性的低效,不仅浪费了巨大的计算资源,也限制了模型能力的进一步提升。

为了解决这一根本性缺陷,腾讯AI实验室的研究人员从优秀教师的因材施教中汲取了灵感,设计了一套能够动态调整训练策略的智能系统。
双对手博弈系统:智能的“题目分配员”与“资源管理员”
这套系统的核心是两个相互协作的“对手”,它们共同构成了AI训练的“智慧导师”。
- 提示分布对手:智能的“题目分配员” 它的职责是决定AI应该重点“练习”哪些类型的问题。它像一位经验丰富的老师,时刻观察着AI的表现。一旦发现AI在某个知识领域存在薄弱环节,它就会立即增加这类“难题”在训练中的出现频率,确保AI的“注意力”被精准地引导至最需要加强的地方,而不是在已经掌握的简单问题上空耗。
- 推理分配对手:精明的“资源管理员” 它的任务是优化计算资源的分配,决定每类问题需要多少次“练习”才最合适。对于AI已经驾轻就熟的问题,它会果断减少计算资源的投入;而对于那些依然棘手的难题,它则会分配更多的计算力,让AI有充分的机会去探索和试错。这种动态调整机制,就像健身教练根据学员的体能状况实时调整训练计划,确保每一次训练都富有成效。

显著成效与“涌现课程”现象
这项创新方法在数学推理任务中得到了充分验证。研究团队使用包含14100个问题的DAPO数据集,在不同规模的Qwen3-Base模型上进行了实验。结果令人振奋:在相同的计算预算下,新方法带来了显著的性能提升。其中,“提示分布对手”方法在pass@8准确率上实现了平均10.6%的相对提升,“推理分配对手”方法也达到了10.1%的提升。这一幅度的改进在AI领域意义重大。