语言,被古希腊哲学家亚里士多德视为人类区别于其他生物的核心特征。他提出,人类是“拥有语言的动物”。如今,随着人工智能技术的飞速发展,大语言模型(LLM)在模拟人类语言能力方面取得了显著进展。然而,一个关键问题依然存在:在语言的深层结构中,是否存在某些人类独有的特质,是AI或其他生物无法复制的?
近期,加州大学伯克利分校与罗格斯大学的联合研究对多个大语言模型进行了一系列语言学测试,试图解答这一问题。测试内容包括要求模型归纳虚构语言的规则、解析多重歧义以及处理复杂的递归结构。结果显示,大多数模型未能像人类一样完成这些任务,但OpenAI的o1模型却展现出惊人的能力,其表现接近语言学研究生的水平。
研究负责人Gašper Beguš指出,o1不仅能划分句子成分、解析歧义,还能运用递归等复杂语言学特征。这一发现挑战了人们对人工智能能力的传统认知。例如,在处理“中心嵌入”结构时,o1能够像人类一样理解并构建多层递归的句子。
以句子“The worldview that the prose Nietzsche wrote expressed was unprecedented”为例,其结构包含三层递归:最外层是“这个世界观前所未有”,中间层是“那篇散文所表达的”,最内层是“尼采写的”。o1不仅能正确解析这种结构,还能在要求下进一步增加递归层次,生成更复杂的句子。
这种能力表明,o1不仅具备语言使用能力,还拥有“元语言能力”,即思考语言本身的能力。这与传统观点形成鲜明对比——许多语言学家认为,大语言模型只是通过预测下一个单词来生成文本,并未真正理解语言的深层结构。
研究还发现,o1在处理歧义和音韵学任务时表现优异。例如,在解析句子“Eliza wanted her cast out”时,o1能准确区分“cast”作为动词(驱逐)和名词(石膏)的两种含义。面对30种新创建的迷你语言,o1能在无先验知识的情况下正确推断语音规则。
这些结果引发了关于AI语言理解能力的深入讨论。2023年,语言学家乔姆斯基曾在《纽约时报》撰文指出,语言的复杂性无法仅通过大数据浸泡来掌握。然而,o1的表现似乎对这一观点提出了挑战。
那么,为何只有o1能展现出如此强大的能力?研究认为,o1的优势可能源于其“思维链”机制,使其能像人类语言学家一样逐步推理、验证假设并构建抽象规则。相比之下,其他模型在这一方面表现较弱。
另一个值得探讨的问题是:随着模型规模的扩大,AI是否会超越人类的语言理解能力?目前尚无定论。一方面,AI尚未提出原创性语言学观点或教授新知识;另一方面,增加计算能力和训练数据可能使其在语言技能上超越人类。
尽管研究尚不足以宣称“机器理解语言胜于人类”,但它为评估语言模型提供了新的视角:从关注“任务产出”转向关注“结构解释”。当可解释性成为首要指标时,AI研究、教育与应用治理或将迎来统一的标准。









