近期,科技界迎来了一项引人瞩目的新进展。据科技媒体The Decoder报道,OpenAI的高级模型开发领军人物Jakub Pachocki在一篇博文中提出了一个颇具颠覆性的观点:AI推理模型正逐步展现出自主生成知识的能力。
Pachocki强调,这种推理机制并非是对人类思维的简单模仿,而是一个基于大数据和先进算法的创新过程。他详细阐述了AI学习的两个阶段。在第一阶段,模型通过无监督预训练,广泛吸收各类数据,构建出一个无意识的“世界模型”,这个模型为理解现实世界的基本结构提供了基础。
进入第二阶段,模型则通过强化学习与人类反馈(RLHF)的结合,将基础模型转化为能够解决实际问题的助手。Pachocki特别指出,在最新的推理模型中,这一阶段发挥着至关重要的作用。他同时提到,OpenAI在处理有明确答案的任务时,仍采用传统的强化学习方法,而RLHF则更适合应对复杂问题,尽管其扩展性受到一定限制。
Pachocki还对传统的学习阶段划分提出了质疑。他认为,推理模型的“思考”能力实际上深深植根于预训练数据中,因此预训练与强化学习不应被视为两个完全独立的阶段,而是需要更加紧密地融合。
近期一篇学术论文也指出,推理训练并非为模型带来了全新的能力,而是帮助它们以更高效的方式运用已有知识。例如,模型能够以更加结构化的方式解决已知问题。Pachocki对这一观点表示赞同,并进一步指出,模型已经开始展现出发现新见解的潜力,这为AI的未来发展奠定了坚实的基础。
在谈到通用人工智能(AGI)时,Pachocki表示自己的观点一直在不断演变。他回忆起自己作为学生时,曾认为AI掌握围棋是一个遥不可及的目标。然而,2016年AlphaGo的胜利彻底颠覆了他的看法。如今,他将AI的经济价值视为下一个重要的里程碑,并强调AI必须实现商业成果,同时开展自主研究。
Pachocki预测,到本世纪末,AI在自主研究方面将取得实质性进展。他甚至表示,今年内就有可能出现近乎自主的软件开发系统,这将进一步推动AI技术的边界。