在AI领域,一场悄无声息的革命正在加速推进。北京时间7月18日凌晨,OpenAI再次震撼发布——ChatGPT Agent正式亮相。这一创新成果不仅预示着AI Agent竞赛的赛道愈发拥挤,更意味着AI技术从信息提供迈向了行动执行的全新阶段。
ChatGPT Agent,这一由OpenAI精心打造的智能体,能够依据用户指令自动规划执行路径,灵活调用多种工具,从数据抓取到表格生成,从行程规划到酒店预订,多环节任务一气呵成。其能力之全面,令人瞩目。
OpenAI的这一举动,无疑给众多AI Agent创业项目带来了巨大压力。四个月前,Manus等创业公司还在宣传片中描绘着通用AI Agent的美好愿景,而今,ChatGPT Agent已将这些愿景变为了现实。OpenAI创始人山姆·阿尔特曼更是直言,这是他首次“真正感受到AGI(通用人工智能)”的魅力。
值得注意的是,OpenAI将ChatGPT Agent定位为一个模型,而非产品。与依赖上下文管理和工具链编排的系统不同,OpenAI通过训练专用模型,实现了在单一系统中完成复杂流程的能力。这一创新之举,无疑为AI Agent的发展开辟了新的道路。
然而,AI时代的创业者们却面临着前所未有的挑战。技术的快速迭代,使得底层模型的更新往往就能颠覆整个垂直领域的创新产品。理想汽车创始人李想在朋友圈感慨,掌握最强基座模型的企业,如OpenAI,将留给垂直应用创业者的空间愈发有限。AI的本质是能力,能力强者将占据主导。
面对OpenAI的强势来袭,Manus等创业公司并未退缩。OpenAI发布会刚结束,Manus便在社交媒体上转发推文,欢迎OpenAI加入游戏。同时,Manus还放出了一系列与ChatGPT Agent的对比测试,宣称要在正面较量中一较高下。
测试结果显示,在数据整理、路线规划、在线购物、财务分析、餐厅预订等多个场景中,Manus的表现几乎全面占优。其响应速度更快,任务完成度更高,生成的表格更整洁,图示更丰富,PPT更成品化。这一表现,无疑给ChatGPT Agent带来了不小的压力。
尽管如此,ChatGPT Agent仍以其强大的底层模型能力赢得了业界的广泛关注。在学术测试中,ChatGPT Agent的表现甚至领先于OpenAI o3和GPT 4o,达到行业最高水平。在《人类的最后考试》评估中,ChatGPT Agent取得了41.6%的新高;在DSBench测试中,其表现也大幅度领先于GPT-4o。
然而,ChatGPT Agent也并非完美无缺。部分用户反馈指出,其任务完成度有待提高,生成速度较慢,部分复杂任务需要耗时20分钟乃至更长时间才能完成。生成的文档或PPT在美观度上也有所欠缺。
针对这些问题,OpenAI的研究员们表示,他们正在不断努力优化模型。同时,他们也建议用户在使用ChatGPT Agent时,先让其完成研究工作,再输出PPT文件。这样,用户就可以在PowerPoint中套用自己喜欢的设计模板,进一步提升文档的美观度。
在两种技术路线的较量中,初创公司们更倾向于应用创新,试图为用户呈现一个完成度更高且上手难度更低的Agent产品。而OpenAI则更强调底层模型能力的提高,通过端到端训练的统一模型,实现更强大的智能体功能。
随着ChatGPT Agent的正式推出,AI Agent正式进入巨头博弈的时代。其对社会的影响将不亚于大模型爆发之初,AI抢夺人类工作的现实正在悄然上演。微软、亚马逊等科技巨头已经开始裁员,AI Agent的应用正在快速普及。
然而,AI Agent的快速应用也引发了行业人士的担忧。与过去大模型仅提供信息不同,AI Agent具备了从思考到行动的完整能力。这意味着用户将自己的私人信息交给了一个“黑盒”,更容易受到攻击。因此,如何在享受AI Agent带来的便利的同时,保障个人隐私和安全,成为了亟待解决的问题。
OpenAI也意识到了这一风险。他们强调,ChatGPT Agent在执行所有重要操作前都会征得用户同意,用户始终拥有控制权。同时,他们还加入了包括主动监督和主动风险缓解在内的安全措施,以降低隐私和安全风险。