商汤科技首席科学家林达华近期发表深度文章,深入探讨了多模态通用智能的发展路径。文章指出,AI的终极目标在于通过计算模拟智能,而智能的本质是自主与外界交互的能力,涵盖感知、推理、决策、学习等多个层面。
林达华在文章中强调,语言虽是人类智能的重要表现,但并非智能的本质。他提出,语言仅为描述世界的工具,而非世界本身,因此,单纯依赖语言模型难以构建真正意义上的通用人工智能(AGI)。
尽管大语言模型被视为通往AGI的关键一步,但林达华认为,随着AI不断吸收现有的文本数据,未来的突破将需要超越语言本身,回归到智能的本质——即与世界进行交互。他指出,要实现AI的通用性,AI系统必须能够像人类一样通过感官接收信息,并将这些信息转化为可计算的内部表示。
林达华进一步阐述,多模态信息的感知与处理是AGI的核心要求,也是实现从语言模型向AGI跨越的必经之路。这意味着AI系统需要能够理解和处理来自不同模态的信息,如视觉、听觉和触觉等,以实现更全面的智能。