在八月盛夏的北京经济技术开发区,2025世界机器人大会拉开了帷幕,其中一场聚焦“AI大模型赋能机器人与具身智能产业新范式”的交流活动于8月8日同步举行。深圳一目科技有限公司的创始人兼首席执行官李智强,作为AI领域的资深专家,受邀出席并发表了精彩演讲。
李智强以“触觉增强的世界模型”为主题,分享了他对具身智能未来发展的独到见解。他回忆起自己2011年从卡内基梅隆大学(CMU)毕业的时光,那时AI还处于发展的萌芽阶段。从2000年代初ImageNet的诞生,到视觉智能的逐步推进,再到如今OpenAI的ChatGPT等多模态模型能够深刻理解语义并进行重建,AI已经走过了漫长的旅程。
李智强认为,具身智能的未来或许正站在视觉智能发展历程的起点上。他指出,尽管AI已经取得了显著进步,但仍有许多缺失的部分需要补足,特别是对于物理世界模型的全面理解。例如,尽管VLA模型在某些方面表现出色,但对于材质、物理结构等更高维度的参数仍然知之甚少。为了构建更全面的世界模型,我们需要通过更多维度的感知来补足这些数据。
他特别强调了触觉在未来AI发展中的重要性。与视觉和听觉不同,触觉感知和执行器是统一的,这使得它在物体理解上具有独特优势。李智强提出,通过触觉来增强VLA模型,或许能够推动具身智能的进一步发展。他描述了一个思想实验:人们可以轻松地从口袋里辨别出钥匙、耳机或硬币等物体,这个过程并非依赖于严谨的推理和计算,而是基于长期的触碰、探索和物理世界的映射关系。
为了实现触觉增强的世界模型,李智强认为需要满足三个条件:一是绝对类人的触觉感知能力;二是在系统工程优化上实现高保真的鲁棒系统;三是与具身大模型实现高效鲁棒的算法体系对接。他提到,目前已经有了一些优秀的触觉解决方案,如视触觉和光触觉,而一目科技也发布了其视触觉解决方案,该方案在高保真、高像素以及鲁棒性方面达到了最优化。
在演讲中,李智强还讨论了数据问题。他指出,具身智能在Locomotion和Navigation方面已经取得了显著进展,但在Manipulation尤其是精细化操作方面仍有欠缺,这主要归因于数据的缺乏。为了加速高质量数据的收集,一目科技提出了通过触觉传感器和触觉解决方案,结合仿真技术来放大数据量的方法。他们已经在仿真世界中尝试了触碰上百万种物体,并通过不同的环境、光照和物理形态进行了模拟和触碰,从而快速迭代算法并应用到实际场景中。
李智强还强调了通用机器人架构的重要性。他认为,这套架构应该更容易接入,通过调度和处理原始材料,调用不同的物理智能引擎,最终向用户交付有价值的结果。他提出,80%的日常任务可以通过较为通用的模块来实现,而20%的特殊任务则需要更专业化的训练案例来解决。为此,一目科技提供了“精细化即服务”的解决方案,通过硬件、软件和算法为所有需要做精细化操作的场景提供通用服务。
最后,李智强介绍了一目科技的历史和愿景。公司成立于2015年,总部位于美国硅谷。公司名字“一目”寓意着成为人工智能领域的“第一只眼”,推动具身智能向更高更快的发展阶段迈进。他表达了对未来合作的期待,并希望与大家共同推动人工智能的进步。