OpenAI近日宣布了一项重大更新,为其AI聊天机器人ChatGPT引入了“智能体”功能。这一创新使ChatGPT能够利用专属的虚拟计算机,自主浏览网页、深入研究、下载资料,并创建新文件。
具体而言,ChatGPT现在拥有了一个“虚拟个人电脑”,可登录用户账户,执行下载、发送内容等操作。OpenAI解释,AI模型能选择文本或视觉浏览器打开网页,下载文件,通过终端运行命令处理数据,并通过视觉浏览器查看结果。这种自适应策略确保了任务的高效完成。
为了提升用户体验,ChatGPT智能体深度集成了第三方服务。用户只需点击聊天框中的“工具”按钮,选择“智能体模式”,即可启用该功能。随后,用户用自然语言描述任务,智能体即可跨越网页和本地应用环境执行操作,大大简化了繁琐流程。
ChatGPT智能体能够连接Gmail、GitHub等应用,提取有用信息如电子邮件或代码,并完成指定任务。它还能通过第三方API获取信息,利用相关服务。若网站需登录,用户可通过安全浏览器视图完成,使智能体执行更深入的任务,如检查收件箱或填写表单。
OpenAI的ChatGPT智能体产品负责人表示,该模型在基础财务分析任务中表现出色,通常这类工作需要初级员工熬夜完成,特别是在紧急情况下。
此次推出的智能体是对2025年1月OpenAI推出的“Operator”智能体的改进和扩展。Operator虽允许ChatGPT浏览网页、填写表单等,但仅限于与网站和Web应用交互,无法与本地运行的程序如Excel或PPT软件交互。而ChatGPT智能体不仅能浏览网站、与在线表单交互,还能运行代码、分析数据,并根据用户指示生成如PPT或Excel的输出文件。
ChatGPT智能体结合了OpenAI之前发布的“Operator”和“深度研究”两大智能体的优点。“深度研究”能通过专有文本浏览器进行深入网络搜索,并编写详细报告。Operator无法进行深度分析或撰写报告,而“深度研究”不能与网站交互细化结果或访问需身份验证的内容。因此,OpenAI将两者优势融为一体。
虽然原有的Operator工具将被淘汰,但用户仍可通过ChatGPT界面下拉菜单访问“深度研究”功能。ChatGPT智能体支持多种应用场景,如竞争分析、报告生成等,且能无缝切换不同工具。
ChatGPT智能体的推出还伴随着严格的安全控制措施。鉴于智能体能代表用户执行操作,OpenAI加强了安全保护,包括在操作前要求用户确认、主动监督敏感任务,以及设置技术保障限制意外行为。
针对高风险领域,如生物与化学,ChatGPT智能体被归类为“高能力系统”,并采取了最强的安全保护措施。这些措施包括拒绝训练、由生物安全专家进行的“红队”测试和改进的检测系统。
ChatGPT智能体的推出使OpenAI在某种程度上与微软展开直接竞争。微软也推出了类似AI智能体,帮助用户创建和编辑PPT和Excel文件。尽管如此,ChatGPT智能体在实测中表现出色,如在“人类终极考试”中取得高分,在“SpreadsheetBench”基准测试中性能远超Excel中的Copilot。
目前,ChatGPT智能体的部分功能仍在测试阶段,可能在格式或应用内预览和导出文件方面存在差异。OpenAI正积极训练下一代版本,以提高功能的完善度和布局。
ChatGPT智能体的推出标志着用户与AI互动方式的转变,从单纯提问到全权任务委托。凭借其强大的推理和执行能力,OpenAI相信用户将越来越希望AI成为能够解决实际问题的助手。