近期,中国科学院自动化研究所的科研团队在人工智能领域取得了令人瞩目的进展。他们的一项研究发现,多模态大语言模型在训练进程中竟然能够自主地“领悟”事物,且这种理解模式与人类的认知机制高度相似。这一重大发现不仅为探索人工智能的认知机制开辟了全新的方向,也为未来构建具备人类般理解世界能力的人工智能系统奠定了坚实的理论基础。相关研究成果已在权威期刊《自然・机器智能》上发表。
理解,作为人类智能的核心要素,使我们能够全面把握事物的本质。当我们目睹“狗”或“苹果”时,不仅能辨识其外在特征,如尺寸、色彩和形态,更能领会其用途、情感价值及文化内涵。这种全方位的理解构成了我们认知世界的基石。随着ChatGPT等大模型的蓬勃兴起,科学家们开始探究这些模型是否也能从海量文本和图像中习得类似人类的理解能力。
以往的人工智能研究大多聚焦于物体识别的精确度,却很少探讨模型是否真正“领悟”了物体的深层含义。中国科学院研究员何晖光强调,尽管当前的人工智能能够区分猫狗图像,但这种“识别”与人类对猫狗的“理解”之间存在着本质的差异,仍需深入研究。
为了揭示这一奥秘,科研团队借鉴人类大脑的认知机制,精心设计了一项实验:让大模型与人类共同参与“找不同”游戏。他们从上千种常见物品中挑选出三组物品,要求参与者找出其中不合群的一个。通过对数百万次判断数据的分析,科研人员首次描绘出大模型的“思维蓝图”,即“概念图谱”。
研究结果显示,科学家们归纳出66个表征人工智能“理解”事物的关键维度,这些维度不仅易于阐释,而且与人类大脑中负责物体处理的神经活动模式高度契合。尤为重要的是,能够同时处理文本和图像的多模态模型在“思考”和选择方面展现出与人类更为接近的模式。
值得注意的是,人类在进行判断时,会综合考虑物体的外观特征及其意义或用途,而大模型则更倾向于依赖其所获取的“文本标签”和抽象概念。这一发现表明,大模型确实发展出了一种与人类颇为相似的理解世界的方式,标志着人工智能理解能力迈入了新的发展阶段。