ITBear旗下自媒体矩阵:

MiniMax桌面Agent新升级:微信飞书远程指挥,图形操作更精准高效

   时间:2026-04-14 23:59:27 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

人工智能领域迎来新突破,一家科技公司近日为其桌面端智能体(Agent)推出两项创新功能——Pocket(测试版)与Computer Use,推动AI操作电脑的能力从技术演示迈向实际应用场景。用户现在可通过飞书、微信等主流即时通讯工具远程指挥Agent执行任务,同时赋予其模拟人类操作图形界面的能力,包括查看屏幕、移动鼠标、敲击键盘等。

此前,该公司已发布命令行工具MMX-CLI,使Agent能在终端调用多模态能力。此次更新聚焦图形界面交互,通过即时通讯工具构建统一入口,实现“手机远程调度、电脑自动执行”的闭环。例如,用户外出时可通过手机发送指令,让Agent在办公室电脑中查找文件、修改系统设置或操作专业软件,任务完成后直接将结果回传至对话窗口。

Pocket功能的核心价值在于打破空间限制。用户无需身处电脑前,只需在即时通讯工具中唤醒Pocket并发送指令,Agent即可在指定设备上执行任务。典型场景包括远程查找文件:用户发送“查看桌面是否有2025 report的PDF并发送”的指令后,Agent会定位文件并通过对话窗口回传,全程无需人工干预电脑。

Computer Use则赋予Agent“数字员工”的实操能力。通过屏幕截图识别内容、模拟鼠标键盘操作,Agent可处理无命令行接口的任务,如调整系统偏好设置、操作设计软件或跨应用数据搬运。例如,用户可要求Agent“打开系统设置,将屏幕保护程序启动时间设为永不,随后运行Pocket客户端的定时任务并截图反馈”。演示中,Agent精准完成多步操作,包括定位下拉菜单、启动应用程序及任务执行后的状态截图。

技术层面,该公司摒弃传统“单一工具截屏定位”的粗放模式,将桌面操作拆解为四大独立模块:Desktop Control负责基础交互(截图、点击、输入等);Window Manager管理窗口状态(查询、切换、缩放等);Browser Engine处理网页元素(DOM操作、导航等);Clipboard实现剪贴板读写。Agent根据任务类型自动调用最优工具,例如切换窗口时直接调用系统接口而非依赖截图定位,显著提升操作精度。目前,Agent可调度的工具总数已超60个,涵盖即时通讯平台、命令行工具及桌面应用。

针对不同分辨率屏幕的适配问题,技术团队采用“相对坐标”方案:模型输出操作位置的百分比数值,由系统换算为实际像素坐标;截图则根据模型处理能力动态缩放,避免高分屏信息过载或低分屏模糊。例如,在4K与1080p屏幕上点击同一按钮,Agent均能准确计算实际坐标并完成操作。

为确保多步任务的可靠性,每项操作执行后均会触发自动验证:系统立即截图并由模型判断操作是否成功。若失败,Agent将启动诊断流程,尝试替代方案(如用键盘快捷键替代鼠标点击);若多次重试无果,则向用户反馈具体卡点。安全机制方面,涉及文件删除等敏感操作时,Agent会暂停任务并通过即时通讯工具推送交互卡片(或文本指令),待用户授权后继续执行。用户也可随时发送指令中断任务。

随着OpenClaw、Anthropic等企业相继布局,AI操作电脑的能力正从实验室走向真实场景。然而,复杂界面识别、长任务稳定性及陌生软件适配仍是行业共性挑战。此次更新通过即时通讯入口降低使用门槛、模块化工具提升精度、步骤验证保障可靠性,为技术落地提供了可参考的路径。其实际效果仍需通过大规模用户反馈进一步验证。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version