近日,腾讯混元团队正式发布了混元世界模型1.5(Tencent HY-WorldPlay),并将其技术框架全面开源,标志着AI驱动的虚拟世界生成技术向前迈进了一大步。该模型不仅能够通过文本或图像输入一键生成可交互的3D虚拟场景,还实现了每秒24帧的实时交互式建模,使用户能够在所生成的世界中自由探索,享受流畅的画面和一致的空间体验。这一技术突破为游戏、影视、VR以及具身智能训练等领域带来了革命性的新可能。
实时交互突破:24 FPS流畅生成,沉浸感跃升
HY-World1.5的核心突破在于其实时性和长期一致性的完美融合。基于WorldPlay自回归扩散模型,系统通过“下一帧预测”训练机制,结合双分支动作表征技术,能够根据用户的操作(如键盘、鼠标或手柄输入)实时生成后续视频片段,实现24帧/秒的高清视频流输出。这使得用户在第一视角或第三视角中移动时,画面能够连续自然地呈现,没有明显的卡顿或跳变,真正带来“所想即所见”的沉浸式体验。

空间记忆重构:让虚拟世界“记得住”
传统世界模型在长时间探索中常因记忆衰减导致场景错乱,而HY-World1.5创新性地引入重构上下文记忆机制,能动态重建过往帧信息,确保用户返回已探索区域时,场景结构、物体位置与光影效果保持高度一致。这种“空间记忆”能力,使生成的世界具备长期稳定性,为构建可持续演进的虚拟空间奠定基础。
多模态输入与风格化生成,应用前景广阔
模型支持文本指令或图文结合输入,如输入“废弃游乐园,生锈的摩天轮,杂草丛生,怀旧忧伤”,即可生成风格统一、细节丰富的游戏级场景。同时支持第一视角与第三视角切换,人物跟随、相机晃动等效果自然逼真。此外,模型还能触发冒烟、爆炸等动态事件,适用于AI游戏关卡生成、影视预演、虚拟现实内容创作等多元场景。

全链路开源,推动技术生态发展
此次腾讯混元不仅开源模型权重,更开放了从数据构建、训练优化到流式推理的全链路技术体系,并提供在线体验平台、GitHub与HuggingFace资源,助力开发者快速集成与二次创新。此前,混元团队已陆续发布1.0与1.1版本,逐步实现从3D场景生成到多视图建模的迭代,而1.5版本则完成了向“可交互世界”的关键跃迁。