2026年5月6日,北京海淀区的人工智能企业生数科技隆重发布了通用世界行动模型Motubrain。该模型作为具身智能机器人的“通用大脑”,首次成功实现了“感知、预测、行动”的一体化建模,并在WorldArena与RoboTwin 2.0这两项国际权威榜单上双双夺冠,标志着具身智能技术从“实验室阶段”向“实际应用场景”的重要跨越。
长期以来,具身智能机器人一直面临“感知与行动割裂”的核心问题:它们要么能够识别环境却无法完成精准动作,要么可以执行简单操作但无法预测环境变化,这使得它们在真实场景中难以稳定地完成复杂连续的任务。Motubrain的创新之处在于,采用原创的UniDiffuser框架,将机器人的“视觉感知”与“行动规划”整合在同一个模型中,使得机器人不仅能够理解环境,还能预测环境的变化,并制定出可执行的行动策略。

具体来看,Motubrain构建了视频、动作与语言协同的三流MoT架构,融合多模态预训练模型与专家模型能力,打通了从场景理解、语言指令遵循到动作生成的完整任务链路。这种统一建模方式打破了传统“多模型拼接”的局限,使模型能够同时学习环境变化、动作执行与任务结果之间的关系,一次训练即可支持视觉语言动作、视频生成、逆动力学模型等多种能力。
围绕“理解世界、预测世界、作用于世界”的目标,Motubrain形成了四项关键能力:“一脑多能”使其能在多任务场景中保持稳定表现,任务数量增加时平均成功率同步提升;“一脑多型”打破“一个机器人一个模型”的传统,可适配不同形态的机器人本体,利用异构数据持续提升通用性;“一脑贯通”让机器人能直接完成10个原子动作级别的复杂长程任务,无需上层规划或任务拆解;“一脑预见”则赋予机器人动态决策能力,可根据环境变化推演更合理的动作路径。

在权威榜单测试中,Motubrain展现出硬核实力:WorldArena测试中,其在动作真实度、轨迹连贯性、物理平滑度等维度均斩获第一,证明了对物理规律的深刻理解;RoboTwin 2.0测试中,面对50个复杂任务,其平均得分达96.0,成为唯一在随机环境下平均分超95的模型,展现出极强的任务执行稳定性与跨场景泛化能力。