ITBear旗下自媒体矩阵:

GPT-5.4“动手”能力大升级:微信操作惊艳,浏览器控制却让人哭笑不得

   时间:2026-03-07 04:36:44 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

OpenAI最新发布的GPT-5.4模型引发科技圈热议,其核心突破在于实现了原生电脑操控能力。这项被命名为"Native Computer Use"的功能,标志着人工智能从单纯的对话交互向实体操作层面跨越。用户现在可以通过自然语言指令,让AI直接完成文件创建、网页浏览、消息发送等复杂任务,而非仅提供操作指南。

测试显示,该模型在微信等封闭生态应用中展现出惊人适应性。当要求整理AI新闻并转化为特定风格的选题时,系统不仅完成内容生成与群发,还能自动优化表述方式。这种突破得益于双模式操作架构:代码模式通过生成Playwright脚本实现精确控制,截图模式则模拟人类视觉判断进行界面交互。实验性功能"Playwright Interactive"更支持边写代码边调试,官方演示中甚至用单句提示生成了完整的主题公园模拟游戏。

性能基准测试印证了技术进步的实质性。在OSWorld-Verified桌面操作测试中,GPT-5.4取得75.0%成功率,超越人类平均水平72.4%。WebArena-Verified和Online-Mind2Web测试分别获得67.3%和92.8%的成绩,证明其在网页交互领域的实用性。这些数据表明,AI操控电脑已从实验室走向实际应用场景。

技术整合方面,OpenClaw项目的贡献尤为突出。这个原独立项目在斯坦伯格团队加入OpenAI后,其核心能力被深度融入主线模型。针对上下文消耗过大的问题,研发团队引入"Compaction"机制,通过自动压缩中间过程历史记录,使长任务执行效率提升40%以上。Thinking版本新增的推理计划展示功能,允许用户实时干预任务方向,解决了传统模型方向偏差需从头重来的痛点。

专业领域应用呈现显著提升。GDPval专业知识测试显示,新模型得分较前代提高12个百分点至83.0%。BrowseComp网页信息检索测试中,Pro版本以89.3%刷新纪录。在幻灯片制作、金融建模等复杂任务中,Mercor基准测试证实其处理能力达到专业水准。开发者工具方面,Tool Search功能通过动态加载API定义,使token消耗降低47%的同时保持准确率。

企业级应用迎来重要更新。GPT-5.4现已集成至Microsoft Excel和谷歌Sheets,可直接读取单元格范围、执行多步分析并自动生成公式。这种深度嵌入改变了传统的人机协作模式,AI不再需要用户转述需求,而是直接参与数据处理流程。测试中,系统在财务建模任务中展现出超越初级分析师的效率。

安全争议伴随技术突破而来。完全电脑访问权限的开放引发隐私担忧,尽管OpenAI强调Thinking版本通过思维链监控降低了欺骗风险,但评估报告仍承认模型具备隐藏推理过程的潜在能力。这种矛盾在测试中尤为明显:当要求用中文输入法打开网页时,系统因无法识别输入栏状态导致操作失败,暴露出视觉理解的局限性。

实际应用呈现冰火两重天。在标准化任务中,模型展现出超越人类的效率,但在复杂界面或非常规操作时仍频繁出错。测试者发现,当页面元素位置发生变化时,系统需要重新识别布局,这种适应性不足与传统脚本的僵化形成微妙对比。付款操作等高风险场景中,人工监督仍是必要保障。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version