在麻省理工学院生成式AI影响力联盟的研讨会上,meta首席AI科学家、纽约大学教授Yann LeCun再次抛出争议性观点。这位2018年图灵奖得主重申,当前主流的大语言模型技术是"死胡同",并直言"这些系统永远无法达到人类水平的智能"。与此同时,他对人形机器人领域的热潮泼出冷水:"行业最大的秘密是,没有公司真正知道如何让机器人具备足够的通用智能。"
回溯至1987年,当AI学术界沉迷于专家系统研究时,年轻的LeCun在巴黎完成了关于"连接主义学习模型"的博士论文。这项奠定神经网络反向传播算法基础的研究,在当时显得格格不入。"也许是因为天真或无知,"他回忆道,"本科时我就被自组织系统的概念吸引——自然界中的生命都具备适应能力,而拥有神经系统的生物都能学习。"这种信念支撑他在不受主流认可的领域坚持研究,直到遇见导师Maurice Milgram后正式开启学术生涯。
2016年NeurIPS大会上,LeCun提出的"蛋糕理论"引发学界震动。他将人工智能体系比作三层蛋糕:自监督学习构成主体,监督学习是糖霜,强化学习仅作点缀。"当时DeepMind等机构全力投入强化学习,但我始终认为这种路径效率低下。"他指出,强化学习需要海量试错次数,而理想系统应通过观察世界自主构建认知模型。这种理念在十年前就已萌芽,团队尝试用未标注数据训练系统预测视频内容,却发现视频预测的复杂性远超文本处理。
"给会议室拍摄视频并平移镜头后,系统根本无法预测每个人的长相或房间细节,"LeCun举例说明,"有些信息本质上是不可预测的,强行要求系统完成这类预测只会扼杀其发展。"经过五年探索,团队意识到必须突破传统框架。2022年ChatGPT引发的技术革命中,meta推出的Llama模型虽取得商业成功,但LeCun强调自己未参与技术核心开发,称其最初只是巴黎团队的"海盗项目"。
面对行业巨头今年在AI基础设施上投入的3230亿美元,LeCun用数据对比揭示现存局限:以Llama 3为例,其训练使用的30万亿token总量,相当于人类阅读40万年才能完成的文本量。而四岁儿童在清醒的16000小时内,通过视神经接收的数据量就已达到同等规模。"这暴露出关键缺失——AI系统需要从视频等高带宽感官数据中学习,仅靠文本训练永远无法企及人类智能。"他直言,当前系统最多只能成为"反刍训练内容的工具",连家猫的认知能力都难以超越。
在学界普遍追逐生成式模型的背景下,LeCun团队过去五年专注开发JEPA架构。这种联合嵌入预测架构通过编码器将视频转化为表征空间,在保留可预测信息的同时消除不可预测细节。"关键在于诱导系统在表征中承载足够信息,同时过滤无关细节。"他透露,meta实验室的对比实验显示,非生成式架构在图像任务上的表现已超越监督模型,这为自然感官数据处理提供了新范式。
具体应用方面,巴黎团队开发的Dino系统已展现出通用视觉编码器的潜力,被广泛应用于医学图像、生物分析和天文学领域。更值得关注的是V-JEPA项目,研究者用相当于一个世纪的视频量训练系统,使其能识别视频中的异常事件。"当物体突然消失或变形时,预测误差会显著上升,这是系统获得常识的初步迹象。"在机器人领域,基于世界模型的系统已实现零样本任务完成,无需针对特定场景进行强化学习训练。
对于AI安全议题,LeCun提出与主流观点截然不同的解决方案。他主张构建"目标驱动"的架构,通过硬编码护栏确保系统行为可控。"就像为家用机器人设定底层规则:当周围有人且手持刀具时,禁止挥动手臂。"他将这种设计类比于人类法律体系,"我们数千年来都在通过规则引导行为,设计安全护栏的难度并不超过制造喷气式飞机。"
当被问及对年轻研究者的建议时,LeCun强调应关注具有持久价值的理论基础。"在移动应用编程和量子力学之间,即使你是计算机专业学生,也应该选择后者。"他解释道,量子力学培养的路径积分等抽象思维,对语音识别解码等现实问题具有普适价值。"未来博士生将拥有AI虚拟助手团队,人类需要提升认知层级,把底层工作交给机器。"











