ITBear旗下自媒体矩阵:

哈萨克斯坦团队另辟蹊径:消费级显卡打造实时AI游戏新体验

   时间:2026-07-04 05:55:49 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

当游戏世界不再由程序员提前设计,而是由人工智能在你探索时实时“绘制”——这种曾被视为科幻的场景,正被一群研究人员变为现实。哈萨克斯坦DreamForge AI Lab近日发布的技术报告,详细介绍了其开发的DreamForge-World 0.1 Preview系统。该系统通过组合现有开源模型,实现了在消费级显卡上实时生成可交互的动态世界,尽管仍存在明显局限,但其技术路径为资源有限的研究团队提供了新思路。

传统游戏世界如同预先搭建的舞台,所有场景和物体位置固定不变;而世界模型的核心挑战在于,它必须像即兴表演的魔术师一样,根据玩家动作实时生成连贯画面。玩家向前移动时,背景需自然拉近;转身回望时,场景应与之前一致。这一过程面临两大难题:一是速度,需以每秒十几帧的速率持续生成画面;二是记忆,AI需记住已生成的场景细节,否则累积误差会导致画面错乱或场景变形。

DreamForge团队选择了一条务实的技术路线:不追求顶级画面质量或完美记忆能力,而是聚焦于用有限资源实现基础功能。他们以英伟达实验室改造的LongLive 1视频生成模型为骨干,该模型通过“KV缓存重用”“短窗口注意力”等技术优化,已具备快速“流式续写”能力。在此基础上,团队移植了Matrix-Game 2.0的动作控制模块,该模块通过1200小时游戏操作数据训练,能将玩家键盘鼠标输入转化为画面变化。最终系统仅用64小时精选游戏视频完成微调,训练数据量仅为谷歌Genie系统的1/468。

系统实现的关键步骤包括:首先训练骨干LoRA模型,使LongLive 1适应游戏画面风格;其次植入动作控制模块,通过“残差动作通路”实现玩家操作与画面生成的动态叠加;最后针对第一人称和第三人称视角分别训练高阶LoRA,解决镜头运动自然性和背景视差协调性问题。为支持图片或视频作为生成起点,团队直接利用模型自带的VAE编码器,将输入内容转换为AI可处理的“历史记录”,从而延续生成过程。

实际测试显示,在RTX 4090显卡上,系统以fp8精度运行时可达每秒14至15帧,内存占用仅4GB。用户可通过文字描述、图片或视频片段启动世界生成,并在探索过程中实时改变环境特征——例如在游戏进行中输入“海啸”指令,AI会逐渐在画面中呈现浪潮涌来的动态效果。系统支持双视角切换,在约一分钟的持续生成窗口内能保持相对稳定的画面质量。

尽管实现多项突破,该系统仍存在显著缺陷。最核心的问题是缺乏持久空间记忆:玩家转身回望时,AI会重新生成场景而非还原原貌,导致树木位置变化或场景结构错乱。长时间运行后,画面会出现颜色过饱和和纹理模糊等退化现象。控制精度方面,快速镜头移动可能引发画面抖动,第三人称视角的稳定性优于第一人称但仍不够精确。系统暂不支持声音生成、多角色交互或物理碰撞检测。

研究团队坦言,当前版本仅为技术预览,重点在于验证组合开源模型的可行性。其训练数据规模与顶尖系统的差距,直接反映在画面质量、记忆能力和控制精度等维度上。但这种“拼积木”式开发模式证明,通过针对性迁移学习和微调,资源有限的小团队也能构建出具备基础交互能力的实时世界生成系统。

根据规划,下一代DF-World 0.5版本将优先攻克持久空间记忆难题,可能通过潜在记忆检索、相机感知记忆等技术实现场景还原。其他改进方向包括:升级视频骨干模型、优化动作控制架构、支持运行中持续更新多模态输入,以及为生成画面添加同步音频。尽管当前版本尚未公开体验,但其技术路径已引发行业关注——当记忆问题逐步解决,普通人或许真能用一台电脑和简单描述,创造出属于自己的动态世界。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version