在 AI 模型持续进化的当下,参数规模似乎一直是决定模型性能的关键指标。然而,MetaStone – AI 的最新成果打破了这一固有认知。其推出的反思生成模型,仅凭借 32B 参数,就在推理能力上直逼 OpenAI 的 o3 – mini,这一突破性进展为 AI 领域带来了全新思考方向。
MetaStone – AI 团队创新性地提出 “反思生成形式”。传统模型在推理时,如同单向行驶的列车,生成结果后缺乏对过程的审视。而该模型则像是配备了 “智能导航”,不仅能生成推理轨迹,还能自我评估推理质量。具体而言,它通过统一架构设计,将负责生成推理轨迹的政策模型和用于评分轨迹质量的自监督过程奖励模型(SPRM)整合于同一骨干网络,以 32B 模型为例,仅额外增加 53M 参数,便实现了两大关键功能的协同运作 。
页码:下一页