ITBear旗下自媒体矩阵:

VLA技术深度探讨:小米陈龙、上交穆尧共话前沿挑战与未来前景

   时间:2026-01-24 21:43:02 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

在智能科技飞速发展的当下,自动驾驶与具身智能机器人领域正经历着前所未有的变革。2025年末,首批L3级自动驾驶车型获得准入,标志着中国智能驾驶产业正式迈入新纪元。与此同时,具身智能机器人领域在过去一年间也取得了令人瞩目的进展,从年初抓取苹果都困难重重,到如今叠衣服成为行业入门任务,甚至穿鞋带这样曾被视为遥不可及的精细操作也已被成功攻克。

在这场技术跃迁的背后,VLA(Vision-Language-Action,视觉语言动作大模型)技术扮演着至关重要的角色。与传统的端到端模型不同,VLA将语言理解与推理能力引入物理世界的决策链路,赋予机器“看了就懂、懂了就做”的认知能力。这一创新性的技术框架,不仅为自动驾驶和机器人领域带来了新的发展机遇,也引发了行业内的广泛关注和讨论。

自动驾驶领域,VLA技术的引入旨在解决传统算法在长尾问题上的泛化性不足。传统自动驾驶系统通常依赖模块化设计,包括感知、预测和规控等模块,但这些模块在面对复杂多变的道路场景时,往往难以做出准确决策。而VLA技术则通过引入语言模态,利用大模型的泛化能力和推理能力,使自动驾驶系统能够在遇到未见过的场景时,通过思考和推理做出更合理的决策。例如,在施工场景中,VLA技术能够理解各种非结构化的标识牌,并据此规划出安全的行驶路线。

在机器人领域,VLA技术的应用同样广泛。具身智能机器人需要完成各种复杂任务,这些任务往往涉及长程规划和精细操作。VLA技术通过语言模态,使机器人能够理解人类指令,并将任务拆解为一系列子任务来执行。例如,当机器人听到“帮我做一杯咖啡”的指令时,它能够将这一抽象指令分解为拿出杯子、倒入咖啡粉、加入热水等具体动作原语,并依次执行。这种能力极大地提升了机器人的灵活性和适应性,使其能够更好地融入人类生活。

然而,VLA技术的兴起也伴随着争议。在2025年世界机器人大会上,宇树科技创始人王兴兴公开质疑这一技术路线,认为其在安全性、准确率和效率等方面存在不足。这一质疑引发了行业内的热议,也促使研究者们更加深入地思考VLA技术的本质、挑战与前景。

针对VLA技术的争议,小米汽车智能驾驶VLA技术负责人陈龙和上海交通大学计算机学院助理教授穆尧从不同角度进行了回应。陈龙认为,VLA技术虽然目前存在一些问题,如效率不高、幻觉问题等,但其潜力巨大,是现阶段最能实现物理世界AGI(通用人工智能)的框架之一。他强调,语言是人类智慧的结晶,互联网上的大量数据融合了人类的很多智慧,VLA技术通过利用这些数据,能够学习到人类对世界的定义和价值观,从而做出更合理的决策。

穆尧则从机器人领域的角度出发,认为VLA技术为机器人带来了前所未有的机会。他指出,具身智能机器人与传统的机器人研究不同,更关注泛化性,包括对场景的泛化性、视觉和物理上的泛化性等。VLA技术通过引入语言模态,使机器人能够更好地理解人类指令,并在复杂环境中做出灵活应对。虽然目前VLA技术在机器人领域的应用还面临一些挑战,如数据获取困难、模型部署复杂等,但随着技术的不断发展,这些问题有望逐步得到解决。

在探讨VLA技术的未来发展方向时,陈龙和穆尧都提到了数据的重要性。陈龙指出,自动驾驶领域的数据获取相对容易,因为所有跑在路上的车都可以回流作为专家数据。而机器人领域的数据获取则困难得多,目前主要依赖仿真合成数据和人类采集数据。为了解决这一问题,穆尧提出了“人-数字人-机器人”一体的架构,希望通过搭建从人的行为到机器人行为的调节管道,提高人类数据的利用效率,并为仿真合成数据注入人类丰富的行为信息。

除了数据问题外,VLA技术的安全性也是研究者们关注的焦点。在自动驾驶和机器人与人类交互的过程中,安全性是至关重要的。穆尧认为,强化学习是提升VLA技术安全性的有效手段之一。通过强化学习,可以使机器人在意识层面和行为动作层面都更加安全可靠。陈龙则强调了系统层面上的安全性冗余设计,他认为在自动驾驶这样对安全性要求极高的场景中,需要多个网络做兜底,以确保在VLA模型出现错误时能够及时做出安全操作。

在实时性方面,VLA技术也面临一定的挑战。由于语言决策逻辑的加入,模型的响应时间可能会变长。为了解决这一问题,研究者们提出了多种方案。例如,采用双系统设计,将VLA作为慢通路负责深度思考,同时采用另一个快系统负责快速响应;或者采用异步推理设计,使推理和执行过程并行进行,以提高系统的整体响应速度。这些方案都在一定程度上缓解了VLA技术的实时性问题。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version