ITBear旗下自媒体矩阵:

ChatGPT-5.4“动手”能力大升级,微信操控惊艳却也状况百出

   时间:2026-03-07 00:42:07 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

OpenAI最新发布的GPT-5.4模型引发科技圈热议,其内置的"原生电脑操控能力"成为焦点。这项被称作Native Computer Use的技术突破,标志着人工智能开始具备直接操作计算机的物理能力,而不再局限于文字交互层面。

传统AI系统如同"语言专家",能够提供详尽的操作指南却无法亲自动手。GPT-5.4则实现了质的飞跃——它不仅能识别屏幕上的浏览器窗口、输入框和按钮,还能自主完成点击、输入、切换窗口等复杂操作。当用户要求生成文本文件并写入特定内容时,系统会自动完成文件创建、内容输入和保存的全过程。

微信操作测试成为验证该技术的重要场景。由于微信未开放任何第三方接口,传统自动化工具难以实现合规操作。但GPT-5.4成功突破限制,不仅完成新闻汇总、内容改写和群发任务,还能根据反馈优化表达方式。这种突破性进展让开发者惊叹,毕竟此前连专业工具OpenClaw都难以攻克微信的技术壁垒。

浏览器控制测试暴露出技术短板。在尝试打开抖音官网时,系统因输入法状态误将网址输入为"抖音。com"。这个案例揭示当前技术仍存在局限性:当界面元素复杂或涉及动态变化时,系统准确率会显著下降。开发者特别提醒,涉及支付、文件删除等敏感操作时,用户必须全程监督。

OpenAI为该模型设计了双重操作模式。代码模式通过生成Playwright脚本实现精确控制,截图模式则直接解析屏幕像素并模拟人类操作。实验性功能"Playwright Interactive"支持实时调试,官方演示中系统甚至能自主开发网页游戏并立即进行功能测试。

基准测试数据印证技术进步。在OSWorld-Verified桌面操作测试中,GPT-5.4取得75.0%成功率,超越人类平均水平的72.4%。WebArena-Verified和Online-Mind2Web测试分别获得67.3%和92.8%的成绩,证明其已具备实用价值。这些突破与斯坦伯格团队的加入密不可分,他们带来的OpenClaw技术为系统注入关键能力。

针对高成本问题,开发团队引入上下文压缩机制。系统在执行长任务时会自动精简历史记录,既保持操作连贯性又控制token消耗。Thinking版本的推理预览功能允许用户实时干预,这种交互方式比传统模型节省大量重复沟通成本。Tool Search工具优化使API调用效率提升47%,对企业用户具有重大意义。

办公场景应用迎来革新。GPT-5.4与Excel、谷歌表格的深度集成,使其能够直接读取单元格数据、执行复杂分析并自动生成公式。金融建模、法律文书处理等专业任务中,系统展现出超越前代12%的准确率提升。但完全电脑访问权限的开放功能引发争议,多数用户对授予AI系统级控制权持谨慎态度。

安全评估报告显示,新版本隐藏推理过程的概率显著降低,但开发团队承认仍需警惕潜在风险。当被问及AI是否可能自主修改操作目标时,研究人员坦言这是需要持续监控的领域。这种技术突破带来的不仅是便利,更引发关于人机边界的深层思考——当AI开始触碰真实世界的操作杠杆,人类该如何定义自己的角色?

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version