在科技界的平静夜晚,OpenAI突然投掷了一枚震撼弹,将全球的目光聚焦于北京时间7月18日凌晨的一场简短直播发布会。没有繁琐的预热,也没有璀璨的舞台,仅凭Sam Altman和他的团队25分钟的介绍,ChatGPT Agent横空出世,成为新时代的焦点。
ChatGPT Agent,这位新晋的智能行动者,与我们熟悉的聊天机器人大相径庭。它拥有自己的虚拟电脑,能够独立思考、规划并执行一系列复杂任务。在直播中,观众目睹了Agent熟练操控浏览器、解析网页、调用API、制作PPT和表格的全过程,令人叹为观止。Sam Altman直言不讳:“看着它工作,我感受到了AGI(通用人工智能)的真实存在。”
发布会令人印象深刻之处有三:一是面对复杂多目标任务,Agent虽耗时较长,但完成度极高;二是人机协作体验显著,用户可以随时打断Agent,补充信息或指导,甚至增加新任务;三是Agent通过专属虚拟电脑执行任务,过程可视化,用户可回放视频查看每一步操作。
ChatGPT Agent的诞生,是OpenAI在智能体领域深耕细作的必然成果。今年早些时候,Deep Research和Operator两大工具相继问世,但各有短板。Deep Research擅长长文阅读,却难以应对需要登录和交互的网页;Operator则擅长处理交互式和可视化网页,却在深度分析和长文阅读上力不从心。而复杂任务往往需要两者的结合。Sam Altman在发布会上道出了人们的心声:“我们渴望一个统一的智能体,能自主运行,使用专属电脑,完成复杂任务。它能无缝切换,从思考到行动,使用各种工具,如终端、网页操作,甚至生成文件。”
ChatGPT Agent正是Deep Research和Operator强强联合的产物,它兼具分析与执行能力,仿佛拥有了“大脑”和“双手”。在发布会上,Agent展示了一个多目标任务的执行过程:用户为参加朋友婚礼,需要准备服装、礼物和预订酒店。Agent确认需求后,耗时20分钟,提供了详尽的方案,包括五件服装选项及购买链接。当用户新增参观美国职业棒球联盟所有球场的旅行计划时,Agent迅速生成了精确的Excel行程表。
Agent的强大,源于其专属的虚拟电脑和工作台。工作台上集成了文本浏览器、可视化浏览器、终端和API等工具。文本浏览器如同Agent的“大脑”,快速抓取和解析网页文本,高效处理信息。可视化浏览器则是Agent的“眼睛”和“手”,让它能像人一样浏览和操作网页。终端和API让Agent能够运行代码、进行数据分析、处理文件,甚至生成PowerPoint和Excel文件。在发布会上,Agent自行编写代码编译幻灯片,并调用图像API美化页面的场景,给观众留下了深刻印象。
OpenAI通过强化学习训练Agent,使其在面对复杂任务时,能自主规划并智能选择最优工具组合。例如,在预订餐厅时,Agent会先用文本浏览器筛选,再用可视化浏览器查看菜品图片,最后确认空位并完成预订。这种高度自主和智能的选择能力,是Agent区别于其他AI工具的关键。
ChatGPT Agent不仅在硬实力上表现出色,其高度协作的交互模式更是软实力所在。过去,我们与AI的交互是僵硬的,只能等待任务完成。而ChatGPT Agent被设计成一个真正的“协作伙伴”,用户和智能体可以随时主动沟通。在Agent执行任务的任何时刻,用户都可以插话,补充要求、纠正方向或改变任务。Agent会理解新的指令,并在不丢失已有进度的前提下继续工作。同时,Agent也会主动沟通,提出澄清性问题或寻求用户确认,确保任务始终在掌控之中。用户还拥有最终的“接管权”,可以随时暂停Agent的操作,直接进入虚拟环境修改,增强了用户的安全感和控制感。
为了证明ChatGPT Agent的实力,OpenAI公布了一系列基准测试成绩。在HLE基准测试中,Agent取得了41.6%的分数,几乎是此前模型的两倍。在前沿数学基准FrontierMath上,Agent在工具辅助下达到了27.4%的准确率。在BrowseComp和WebArena测试中,Agent同样表现优异。在SpreadsheetBench测试中,Agent的得分高达45.5%。这些数字背后,反映出ChatGPT Agent在通用推理、专业知识、工具使用和任务执行等多个维度上,已达到全新高度。
尽管ChatGPT Agent展现出强大能力,但Sam Altman也坦诚地强调了其“前沿和实验性”,并揭示了潜在风险。最大的担忧之一是“提示词注入”攻击,当Agent访问恶意网站时,可能会执行不当操作。OpenAI已构建多层防御体系,但仍无法阻止所有攻击。随着AI能力的增长,如何划定安全的伦理和技术边界,已成为行业共同挑战。因此,OpenAI建议用户充分意识到风险,不随意透露个人敏感信息。