近日,针对网络上关于豆包手机助手技术实现方式的质疑,豆包官方发布了一份详细的技术说明,对相关误解进行了澄清。此前,有网友发布视频声称,豆包手机助手通过特定权限绕过系统限制,获取了银行安全键盘等受保护界面的内容。对此,豆包明确表示,这些说法是对其技术原理的错误解读。
豆包手机助手在说明中指出,其采用的是系统原生截屏接口(WindowManagerService.captureDisplay),并严格遵循应用声明的Secure标记规则。这意味着,对于银行等应用中标记为受保护的界面内容,豆包手机助手无法进行截屏操作。为了验证这一点,豆包鼓励用户自行测试,通过编写带有受保护页面的APK,观察AI是否能够“看到”这些内容。测试结果显示,AI无法获取这些受保护的信息。
针对网友提到的READ_frame_BUFFER权限,豆包解释称,这一权限的申请是为了支持AI在后台完成操作。具体而言,豆包手机助手将第三方应用运行在虚拟屏空间中,并通过该权限获取虚拟屏中的截图内容,以供豆包大模型进行推理分析。然而,这一过程并不会突破Secure标记的限制,无法读取到包括银行App在内的任何第三方应用设置为Secure的内容。
关于CAPTURE_SECURE_VIDEO_OUTPUT权限的使用,豆包进一步说明,这是为了解决受保护页面在虚拟屏投影中显示为黑屏的问题。由于用户无法查看和操作黑屏界面,因此需要此权限将受保护内容正常展示给用户。尽管如此,投影后的页面仍会保留Secure标记,仅允许用户查看,而无法被截屏或进一步获取。
豆包手机助手的操作流程基于用户指令展开:用户下达指令后,系统会截屏并发送至云端豆包大模型;模型理解指令后返回具体操作,手机端再执行这些指令。这一过程需要不断重复,直至任务完成。由于每一步操作后都需要重新截图上传分析,因此操作间隔约为3秒钟。豆包强调,这一设计是为了确保AI能够准确理解用户意图,而截图上传仅用于视觉理解和推理,不会存储在云端。
针对技术实现的限制,豆包解释称,由于分析界面所需的大模型参数规模较大,受限于当前手机芯片性能,暂时无法在端侧运行。因此,截图上传云端处理成为必要选择。据了解,国内多家手机厂商的AI操作助手产品也采用类似原理,并同样需要申请READ_frame_BUFFER等系统权限。
豆包在说明中重申,用户隐私安全是其核心关注点。豆包手机助手仅在用户主动下达指令时启动截屏功能,且无法截取第三方应用的Secure标记页面。所有上传至云端的截图均用于任务执行,完成后即被删除,不会留存。豆包表示,将继续以负责任的态度回应技术质疑,并欢迎社会各界提出改进建议。










