一场关于人形机器人未来走向的激烈争论,在科技圈掀起轩然大波。meta首席AI科学家杨立昆(Yann LeCun)在麻省理工学院(MIT)的公开演讲中直言,当前机器人行业距离真正的通用智能仍有巨大差距,这一观点迅速引发特斯拉、Figure等企业高管的反驳。
杨立昆指出,现有机器人技术仅能完成工厂中拧螺丝、搬运货物等特定任务,但要让它们在家中叠衣服、倒水或理解人类意图,仍面临难以逾越的障碍。他将这种局限归结为"窄智能"与"通用智能"的本质差异,认为突破关键在于构建能够学习、理解和预测物理世界的"世界模型"架构。
这番言论犹如投入平静湖面的巨石,立即引发行业震动。特斯拉Optimus AI负责人朱利安·伊巴尔茨(Julian Ibarz)公开表示反对,强调公司内部已形成明确的通用人形机器人实现路径。Figure创始人布雷特·阿德科克(Brett Adcock)则更直接地喊话:"建议杨立昆别再空谈理论,亲自下场做些实事。"
追溯杨立昆的学术生涯,其前瞻性研究轨迹颇具传奇色彩。1987年在索邦大学完成的博士论文《连接主义学习模型》,为神经网络反向传播算法奠定了理论基础。当时主流AI研究仍聚焦专家系统,他却独具慧眼地关注到50-60年代科学家对"自组织"问题的探索——即系统如何通过自我组织实现学习。
"生物学为工程提供了丰富灵感,"杨立昆回忆道,"所有生物都具有适应能力,只要拥有神经系统就能学习。这让我相信,构建智能系统的最佳路径或许是让它自行学会变聪明。"这种突破性思维促使他走上机器学习研究道路,尽管当时该领域几乎无人涉足,甚至导致他一度难以找到博士导师。
在2013年加入Facebook(现meta)后,杨立昆创立FAIR实验室并推动"深度学习"概念取代"神经网络",这一术语革新标志着产业界对相关范式的系统性接受。2018年,他因在深度神经网络领域的突破性贡献,与约书亚·本吉奥(Yoshua Bengio)、杰弗里·辛顿(Geoffrey Hinton)共同获得图灵奖。
此次争议的核心,在于杨立昆对大语言模型(LLM)的尖锐批评。他直言LLM是"死胡同",强调仅靠文本训练永远无法达到人类水平智能。"四岁儿童通过视觉接收的数据量,已超过所有公开文本训练的最大规模LLM,"他指出,"这些系统只是回忆训练信息,甚至不如猫的智能水平。"
在杨立昆看来,真正的智能源于视觉、听觉、触觉等多模态感知输入。他以猫为例:虽然猫脑仅含约2.8亿个神经元,但其对三维空间的感知、物体稳定性判断和复杂动作规划能力,远超当前所有生成式AI系统。因此,他主张将研究重心转向"世界模型"——即让机器能够预测动作执行后的环境变化。
这种模型的具体应用场景包括:让机器人通过想象完成冲咖啡等连续动作,预测每一步操作的结果。杨立昆透露,其团队采用的"环境动力学模型"已实现自监督学习,机器人无需针对特定任务反复训练,仅通过学习"动作-结果"关系即可零样本完成新任务。
尽管遭到产业界质疑,但已有企业开始验证杨立昆的理论。获得OpenAI投资的挪威公司1X Technologies发布的"世界模型",包含视觉编码器、动作编码器等模块,可对输入动作质量进行量化评估。该公司首席执行官伯恩特·博尼克(Bernt Børnich)坦言,让机器人进入家庭面临"理想与现实的落差",Wi-Fi连接等基础问题比机器人技术本身更具挑战性。
特斯拉则从制造端切入挑战。马斯克指出,人形机器人量产所需的供应链尚不存在,但公司仍在建设年产百万台Optimus机器人的生产线,目标2026年初推出V3原型机。在ICCV计算机视觉顶会上,特斯拉AI负责人阿肖克·埃卢斯瓦米(Ashok Elluswamy)介绍的"神经世界模拟器",可通过车队视频数据训练实现状态合成,该架构将被迁移至Optimus机器人。
在这场技术路线之争中,杨立昆还意外透露了自己与Llama大模型的"距离"。他多次强调未参与任何Llama项目的技术开发,并揭秘第一代Llama实质是巴黎研究小组的"海盗项目"——这个十余人团队在2022年中后期开发的轻量高效模型,最终成为meta的主力产品。虽然小扎在2023年初组建了GenAI团队推动产品化,但杨立昆坚持表示:"从技术层面说,我确实没插手。"





