OpenAI近日为ChatGPT赋予了一项突破性功能——用户上传表单后,无需手动逐项填写,仅需通过语音或文字描述关键信息,系统即可自动识别表单字段并完成内容补全。这一升级标志着多模态交互技术向实用化迈出重要一步。
在官方演示中,用户上传了一份健身俱乐部会员申请表后,仅需口头说明"姓名张明,地址上海市浦东新区,健身目标增肌减脂",ChatGPT便精准识别出表单中的姓名、地址、目标等字段,并自动将信息填充至对应位置。整个过程如同与智能助手对话般自然流畅,彻底颠覆了传统表单填写方式。
该功能的核心在于实现了图像理解、语音交互与内容生成的深度整合。系统可同步解析上传图片中的文字信息,接收语音指令,并根据上下文逻辑生成符合要求的填写内容。更令人惊喜的是,完成表单后,系统还能基于用户信息自动生成配套的健身计划示意图,形成完整的服务闭环。
不过技术团队也坦言当前功能存在一定局限。输出结果目前仅支持静态图片格式,对于需要电子签名的PDF文档或可交互表单,仍需人工二次处理。文件清晰度直接影响识别准确率,模糊或手写体表单的提取效果可能打折扣。这些技术瓶颈将成为后续优化的重点方向。











