在麻省理工学院生成式AI影响力联盟近期举办的研讨会上,meta首席AI科学家、纽约大学教授Yann LeCun再次以“叛逆者”姿态引发关注。这位2018年图灵奖得主不仅重申“大语言模型是死胡同”的论断,更直言当前人形机器人热潮存在根本性缺陷:“这些公司连如何让机器人具备基础智能都不知道。”
LeCun的学术生涯始于对“非主流”技术的坚持。1987年,当AI界沉迷专家系统时,他在巴黎完成的博士论文奠定了神经网络反向传播算法的基础。这项如今支撑AI革命的技术,在当时被视为“异端”。“我本科时发现,MIT等机构五六十年代就研究过生物自组织现象,”他回忆道,“这让我坚信:智能系统必须自我构建,而非人工设计。”
2016年,LeCun在NeurIPS大会提出“蛋糕理论”引发争议。他将自监督学习比作蛋糕主体,监督学习是糖霜,强化学习仅为樱桃。“当时DeepMind等机构疯狂投入强化学习,但我始终认为这种试错机制效率太低。”他指出,系统最终需要自我修正能力,但这应是最后手段而非核心路径。
在视频预测领域的早期失败促使团队转向新方向。LeCun解释,预测视频帧的复杂度远超文本:“会议室视频中,系统无法预知每个人的长相、房间布局甚至地面纹理。强迫预测细节只会扼杀模型。”这种认知推动了非生成式架构的研发,其核心在于:让系统学习数据的内在结构,而非机械复制。
尽管meta的Llama模型用户突破10亿,LeCun却刻意保持距离。“第一代Llama是巴黎团队‘海盗项目’的成果,”他透露,“十人小组用半年时间就开发出轻量级模型,这种敏捷性反而成就了后来的爆发。”但他同时警告,当前技术路线存在根本局限:以Llama 3为例,其训练数据量相当于人类40万年阅读量,却仅与四岁儿童四年的视觉信息量相当。
“孩子通过每秒2兆字节的视觉输入构建世界模型,而大语言模型连猫的智能都达不到。”LeCun用家猫举例:仅有28亿神经元的动物却能理解物理规律、规划复杂动作,“这暴露出当前AI在物理世界建模上的巨大鸿沟。”
LeCun团队提出的JEPA架构试图破解这一难题。不同于生成式模型对像素的精确重建,JEPA在表征空间进行预测:“系统学会忽略无法预测的细节,同时保留关键信息。”实验显示,这种非生成式方法在图像任务上已超越监督模型,且学习效率显著提升。
在机器人领域,基于JEPA的世界模型展现出潜力。通过自监督学习获得的环境动力学模型,可使机器人完成零样本任务规划。“给定当前状态和动作,系统能预测后续状态,”LeCun解释,“这就像经典控制理论,但动力学模型来自数据而非方程。”某实验中,机器人仅用62小时就自主掌握新任务,且无需针对特定场景训练。
对于AI安全,LeCun提出“目标驱动架构”的解决方案。通过在目标函数中嵌入硬编码规则,系统从构造上就无法突破预设边界。“就像给家用机器人设定底层规则:持刀时不得挥动手臂。”他将此类比法律系统:“人类用数千年时间完善了行为约束机制,AI安全不过是相同逻辑的延伸。”
当被问及对年轻研究者的建议时,LeCun强调基础学科的重要性:“在移动编程和量子力学之间,永远选择后者。”他解释,抽象理论能培养解决复杂问题的能力,“就像语音识别中的路径积分算法,本质是量子力学概念的离散化应用。”











