据科技媒体披露,OpenAI正在秘密研发一款名为BiDi的双向语音交互系统,旨在突破现有语音对话模型的局限性。该技术突破将使人工智能助手具备实时响应中断的能力,彻底改变当前语音交互中"说完才能回应"的固定模式。
现有语音交互系统采用回合制处理机制,用户必须等待AI完成回答后才能继续发言。当用户试图在AI说话时插入"嗯"、"好的"等自然对话元素时,系统往往会直接终止响应。这种技术瓶颈导致人机对话缺乏真实感,尤其在需要即时反馈的场景中表现欠佳。
BiDi模型的核心创新在于其持续语音处理能力。通过并行处理输入输出流,系统能够在生成回答的同时接收新指令,实现真正的双向对话。这种技术架构使AI在被打断时可以动态调整回应内容,就像人类对话中自然发生的场景那样流畅。
测试数据显示,新模型在实验室环境下已展现出显著优势。当用户中途改变需求时,BiDi能立即调整对话路径,避免传统系统常见的断线或重复响应问题。在零售客服场景模拟中,该技术成功处理了用户从退货到换货的需求转变,整个过程无需重新启动对话流程。
不过这项突破性技术仍面临稳定性挑战。内部测试显示,持续对话超过五分钟时,系统偶尔会出现语音失真或逻辑混乱的情况。开发团队原计划今年初发布技术预览版,现因优化需求可能推迟至年中,具体时间表尚未最终确定。
OpenAI研发团队透露,语音交互的流畅度提升将极大拓展AI应用场景。数据显示超过70%的用户更倾向通过语音与数字助手交互,但现有技术限制了复杂场景的应用。BiDi的实时响应能力有望推动智能音箱、车载系统等语音设备的革命性升级。
值得关注的是,新模型在工具调用方面展现出更强灵活性。知情人士称,该技术可无缝衔接邮件处理、服务预订等外部应用,用户通过自然对话即可完成复杂操作。这为OpenAI规划中的语音交互设备奠定了技术基础,公司正在探索开发具备多模态交互能力的智能终端。











