ITBear旗下自媒体矩阵:

清华携手字节跳动新突破:AI获“视觉脑”,开启多模态推理新时代

   时间:2026-01-28 23:57:49 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

人工智能领域迎来一项突破性进展,清华大学与字节跳动Seed联合研究团队提出让AI通过生成图像进行推理的创新方法。这项研究颠覆了传统AI依赖文字符号的思维模式,使机器能够像人类一样在"脑海"中构建视觉画面来理解空间关系、预测物理变化,为智能系统处理现实世界问题开辟了全新路径。

当前主流AI系统在数学运算、代码编写等抽象任务中表现优异,但面对需要空间想象的场景时却频频受挫。研究团队发现,即使是最先进的语言模型,在处理纸张折叠后的孔洞分布、预测弹球反弹轨迹等基础物理问题时,准确率甚至低于学龄前儿童。这种"纸上谈兵"的缺陷,源于现有技术缺乏人类与生俱来的视觉认知能力。

研究核心创新在于构建"视觉世界模型",使AI在虚拟空间中模拟现实世界的物理规律。当面对复杂问题时,系统会同步生成三维场景图像,通过观察不同视角的画面验证推理过程。这种"视觉链式思维"模式,相当于为机器安装了能进行空间想象的"大脑",使其在处理几何变换、物体堆叠等任务时,推理准确率提升最高达66%。

为系统评估AI的视觉推理能力,研究团队设计了包含七类任务的评测体系。其中纸张折叠任务要求AI根据折叠过程和最终孔洞,逆向推演原始纸张的打孔位置;立方体三视图任务则需通过正、侧、俯三个视角的投影,还原三维物体的完整结构。这些测试覆盖了几何变换、状态跟踪、物理模拟等认知维度,全面检验机器的空间理解水平。

实验对比显示,三种推理模式呈现显著差异。纯语言推理如同"闭目解题",仅依靠文字描述进行逻辑推导;显式语言建模会详细记录每步推理的文字说明;而视觉推理则通过生成中间图像辅助思考。在多步操作任务中,引入视觉辅助的AI准确率从40%跃升至66.6%,证明图像信息能有效弥补文字描述的不足。

技术实现层面,研究团队基于多模态模型BAGEL开发了专门训练框架。系统通过监督微调学习人类专家的推理策略,掌握何时生成图像、如何解读画面信息等技能;再通过强化学习优化决策过程,使视觉生成与逻辑推理形成有机联动。特别设计的损失函数能同时优化语言和图像生成质量,确保两种模态的信息协同工作。

深入分析发现,视觉推理的效能取决于任务特性与先验知识。对于需要跟踪复杂状态变化的任务,图像能编码更多空间细节信息;而当处理简单迷宫路径时,坐标描述反而更高效。研究还揭示,AI通过预训练积累的视觉经验可迁移至新任务,使其在纸张折叠等场景中仅需四分之一训练数据就能达到同等性能。

这项突破为智能技术落地应用带来新可能。在机器人领域,具备空间想象能力的AI可精准规划物体抓取路径;自动驾驶系统能通过生成虚拟场景预测复杂路况;工业设计软件可实时模拟产品组装过程。尽管当前图像生成质量在精细结构处理上仍有提升空间,但研究已证明多模态推理比单一语言模式更具适应性。

研究团队指出,未来AI将发展出更灵活的认知方式,根据任务需求自动切换推理模态。当机器能像人类一样交替使用语言逻辑与视觉想象进行思考时,其处理现实世界复杂问题的能力将产生质的飞跃。这项探索不仅拓展了人工智能的边界,更为构建真正理解物理世界的智能系统奠定了技术基础。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version