OpenAI近日宣布,其旗下产品ChatGPT迎来重要功能升级,用户现在可以通过语音或文字指令,让系统自动识别并填写上传表单中的内容,这一创新功能显著简化了表单处理流程。
在官方展示的演示场景中,用户上传了一份健身会员申请表,随后仅需口头说明姓名、住址及健身目标等关键信息,ChatGPT便迅速识别表单字段并完成自动填写。整个过程无需逐项手动输入,操作体验更接近与智能助手的自然对话。
该功能的核心突破在于整合了多模态交互能力。系统可同步处理上传图片中的视觉信息与用户语音指令,通过上下文理解生成符合要求的填写内容。例如在演示中,ChatGPT不仅准确识别了表单中的文本框位置,还能根据语音指令匹配对应字段,最终生成完整的表单数据。
完成基础填写后,系统还具备延伸创作能力。根据表单内容,ChatGPT可自动生成与健身计划相关的配图,为用户提供更直观的视觉参考。不过目前生成的图片均为静态格式,尚不支持直接编辑或转换为交互式文档,部分复杂场景仍需人工复核。
技术团队特别提醒,文件清晰度是影响功能效果的关键因素。当上传图片存在模糊、倾斜或字段重叠等情况时,系统可能出现识别错误。建议用户在使用前确保表单图像质量,以获得最佳体验。这一限制也反映出当前多模态技术在实际应用中仍需突破的瓶颈。











