人工智能领域再掀波澜,前谷歌DeepMind首席科学家、AlphaGo项目核心负责人戴维·席尔瓦(David Silver)宣布在伦敦创立新公司"Ineffable Intelligence",并计划完成10亿美元种子轮融资。这一金额与OpenAI前首席科学家伊利亚·苏茨克维(Ilya Sutskever)2024年创立Safe Superintelligence(SSI)时持平,引发资本市场对AI技术新路径的强烈关注。
与当前主流的大语言模型(LLM)依赖海量文本预训练不同,席尔瓦提出要彻底颠覆现有范式。他主张回归强化学习(Reinforcement Learning)本质,构建无需人类知识输入、能自主探索未知的智能系统。这一理念源于其2025年4月与导师查理·萨顿(Charlie Sutton)在arXiv发布的论文《欢迎来到经验时代》,论文强调智能体应通过与环境持续交互积累经验,而非被动接受静态数据训练。
作为强化学习领域的标志性人物,席尔瓦的学术影响力不容小觑。其论文被引用量超28万次,2019年获得的ACM计算奖更印证了他在该领域的地位。DeepMind发言人确认其离职时特别强调:"戴维的贡献对DeepMind的发展具有不可估量的价值。"这位与DeepMind联合创始人德米斯·哈萨比斯(Demis Hassabis)相识于大学时代的科学家,曾主导开发了AlphaGo、AlphaZero和MuZero等突破性项目。
资本市场对席尔瓦的押注,反映出AI行业正经历路线分化。当前主流模型通过"预训练+微调"掌握语言规律,但席尔瓦指出这种路径存在根本局限:模型能力受限于人类标注数据的质量。他曾在播客中直言:"要超越人类认知,必须让AI自主发现人类尚未掌握的知识。"新公司计划开发的"持续学习超级智能"将通过模拟环境中的自我博弈,从第一性原理推导解决方案,而非依赖语言模仿。
这种技术路线争议颇大。支持者认为,强化学习在规则明确的环境中已展现超越人类的能力,只需设计合理奖励机制即可推广至现实任务。反对者则指出,现实世界存在规则模糊、反馈稀疏等问题,完全摒弃语言路径可能面临算力成本过高和训练效率低下等挑战。据知情人士透露,Ineffable Intelligence可能需要构建复杂的数字孪生系统进行试错训练,这解释了其巨额融资需求。
行业格局正在加速重构。除席尔瓦外,参与AlphaGo项目的多名科学家近期创立Reflection AI,meta在杨立昆(Yann LeCun)带领下重组"超级智能实验室"探索新架构。有观察家比喻:"当前局面类似深度学习爆发前夜,顶尖科学家都在寻找突破LLM瓶颈的新路径。"席尔瓦代表的原教旨主义派认为,智能本质是决策与探索能力,而非语言预测水平。
目前,Ineffable Intelligence已在伦敦设立总部并启动全球人才招募,重点吸引强化学习领域的顶尖研究员。尽管尚未公布产品时间表,但这家公司的技术路线选择和资源投入规模,已被视为影响AI技术演进方向的关键变量。其能否在算力成本与训练效率之间找到平衡点,将成为决定这场技术路线之争走向的重要因素。










