在人工智能领域不断突破的当下,科技媒体 MarkTechPost 于 5 月 29 日发布的一则消息引发热议:苹果公司携手杜克大学,成功研发出名为交错推理(Interleaved Reasoning)的全新强化学习方法,为提升大语言模型推理能力开辟了新路径,在 Qwen2.5 模型上更是成效显著。
长久以来,主流大语言模型在应对多步复杂问题时,多采用 “先思考后回答” 的长链式推理模式。这种模式存在两大棘手难题:一是响应时间漫长,难以契合实时交互场景下用户对即时反馈的需求;二是早期推理环节一旦出错,后续步骤便会沿着错误方向推进,导致最终答案谬以千里。而且,与人类在对话中随时分享思考片段不同,传统模型总是将完整推理过程在内部 “封闭式” 完成,结束后才输出最终结果,这无疑降低了整体效率。
页码:下一页