腾讯混元发布HY-World1.5：开源实时交互世界模型，支持24帧/秒沉浸式生成

2025-12-22

近日，腾讯混元团队正式发布了混元世界模型1.5（Tencent HY-WorldPlay），并将其技术框架全面开源，标志着AI驱动的虚拟世界生成技术向前迈进了一大步。该模型不仅能够通过文本或图像输入一键生成可交互的3D虚拟场景，还实现了每秒24帧的实时交互式建模，使用户能够在所生成的世界中自由探索，享受流畅的画面和一致的空间体验。这一技术突破为游戏、影视、VR以及具身智能训练等领域带来了革命性的新可能。

实时交互突破：24 FPS流畅生成，沉浸感跃升

HY-World1.5的核心突破在于其实时性和长期一致性的完美融合。基于WorldPlay自回归扩散模型，系统通过“下一帧预测”训练机制，结合双分支动作表征技术，能够根据用户的操作（如键盘、鼠标或手柄输入）实时生成后续视频片段，实现24帧/秒的高清视频流输出。这使得用户在第一视角或第三视角中移动时，画面能够连续自然地呈现，没有明显的卡顿或跳变，真正带来“所想即所见”的沉浸式体验。

空间记忆重构：让虚拟世界“记得住”

传统世界模型在长时间探索中常因记忆衰减导致场景错乱，而HY-World1.5创新性地引入重构上下文记忆机制，能动态重建过往帧信息，确保用户返回已探索区域时，场景结构、物体位置与光影效果保持高度一致。这种“空间记忆”能力，使生成的世界具备长期稳定性，为构建可持续演进的虚拟空间奠定基础。

多模态输入与风格化生成，应用前景广阔

模型支持文本指令或图文结合输入，如输入“废弃游乐园，生锈的摩天轮，杂草丛生，怀旧忧伤”，即可生成风格统一、细节丰富的游戏级场景。同时支持第一视角与第三视角切换，人物跟随、相机晃动等效果自然逼真。此外，模型还能触发冒烟、爆炸等动态事件，适用于AI游戏关卡生成、影视预演、虚拟现实内容创作等多元场景。

全链路开源，推动技术生态发展

此次腾讯混元不仅开源模型权重，更开放了从数据构建、训练优化到流式推理的全链路技术体系，并提供在线体验平台、GitHub与HuggingFace资源，助力开发者快速集成与二次创新。此前，混元团队已陆续发布1.0与1.1版本，逐步实现从3D场景生成到多视图建模的迭代，而1.5版本则完成了向“可交互世界”的关键跃迁。

腾讯混元发布HY-World1.5：开源实时交互世界模型，支持24帧/秒沉浸式生成

最新文章