ITBear旗下自媒体矩阵:

港大团队突破AI瓶颈:从“看图说话”到“看图做事”的智能跃迁

   时间:2026-01-02 22:36:52 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

香港大学研究团队与华为技术有限公司联合开展的一项研究,为人工智能领域带来了突破性成果。该团队开发的Dream-VL和Dream-VLA两个模型,首次赋予AI“看图规划”能力,使其能够理解视觉场景并制定完整行动方案。这一进展标志着AI从被动响应向主动规划的跨越,相关研究论文已通过编号arXiv:2512.22615v1公开,供全球科研人员查阅。

传统AI视觉语言模型存在明显局限:它们能描述图像内容,却无法规划行动;机器人虽可执行动作,却难以理解视觉信息。这种“看”与“做”的割裂,如同盲人摸象般限制了AI在复杂场景中的应用。研究团队通过引入扩散语言模型架构,成功打破了这一瓶颈。该架构采用并行处理机制,可同时分析全局信息并动态优化方案,使AI在处理视觉规划任务时表现出更强的逻辑连贯性和全局一致性。

Dream-VL作为首个基于扩散架构的视觉语言模型,通过三阶段训练体系掌握了多层次视觉理解能力。研究团队收集1200万个涵盖数学推理、文字识别等领域的训练样本,使模型逐步从基础图像识别进化到复杂场景推理。在数学视觉推理测试MathVista中,该模型取得63.1%的准确率;在文档理解测试DocVQA中,更以94.4%的准确率超越多数商业模型。其独特优势在于能生成结构化行动序列,在ViPlan基准测试中显著优于传统自回归模型。

Dream-VLA在Dream-VL基础上进一步拓展,通过整合97万个机器人操作轨迹数据,实现了从视觉理解到动作控制的完整闭环。该模型采用一致性扩散架构,在LIBERO机器人操作测试中取得97.2%的平均成功率,在真实WidowX机器人平台上完成四项日常任务的成功率达71.4%,较此前最佳记录提升17.2个百分点。其核心创新在于能同时预测多个连续动作,在生成12个动作时速度较传统模型快27倍,且具备抗错误累积能力,可稳定处理长序列操作任务。

研究团队通过多维度实验验证模型性能。在仿真环境中,Dream-VLA在空间布局、物体操作等四类任务中均保持近98%成功率;在包含视觉干扰的SimplerEnv测试中,仍以60.5%成功率领先同类模型。真实机器人实验显示,该模型在“将勺子放置毛巾上”等精细操作中表现出接近人类水平的稳定性。特别值得注意的是,模型在连续动作空间训练中展现更强适应性,使用流匹配损失函数训练的版本在多数任务中达到60.4%成功率。

技术突破带来显著应用价值。在家庭服务领域,具备该能力的机器人可自主制定清洁方案;工业生产中,机械臂能灵活适应不同装配任务;医疗护理场景下,辅助机器人可精准执行药物分拣等操作。研究团队已开源Dream系列模型代码,降低技术门槛的同时,为全球开发者提供创新基础。尽管当前模型在极端复杂场景中仍有提升空间,但其展现的并行思维架构和全局优化能力,为AI发展开辟了新路径。

Q&A环节

问:Dream-VL与Dream-VLA的核心差异是什么?

答:Dream-VL专注于视觉理解与推理,能分析图像内容并生成结构化方案;Dream-VLA在此基础上增加动作控制模块,形成“感知-决策-执行”完整链条,可直接驱动机器人完成操作任务。

问:扩散模型相比传统架构有何优势?

答:传统自回归模型采用顺序生成机制,如同逐字书写且无法修改;扩散模型通过并行处理实现全局优化,类似同步调整画作各个部分。这种机制使AI在处理长序列规划时速度提升27倍,且能避免错误累积导致的性能衰减。

问:该技术何时能进入日常生活?

答:模型开源已加速技术转化进程。目前家庭服务、工业自动化等领域已出现原型应用,预计3-5年内将看到具备基础规划能力的商用机器人。随着训练数据规模扩大和算法优化,更复杂的医疗护理、物流分拣等场景有望逐步实现技术落地。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version