ITBear旗下自媒体矩阵:

OpenAI新动向:双向语音模型BiDi来袭,让AI对话如真人般流畅自然

   时间:2026-03-06 08:41:20 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

据科技媒体披露,OpenAI正在秘密研发一款名为BiDi的双向语音交互系统,旨在突破现有语音对话模型的局限性。该技术突破将使人工智能助手具备实时响应中断的能力,彻底改变当前语音交互中"说完才能回应"的固定模式。

现有语音交互系统采用回合制处理机制,用户必须等待AI完成回答后才能继续发言。当用户试图在AI说话时插入"嗯"、"好的"等自然对话元素时,系统往往会直接终止响应。这种技术瓶颈导致人机对话缺乏真实感,尤其在需要即时反馈的场景中表现欠佳。

BiDi模型的核心创新在于其持续语音处理能力。通过并行处理输入输出流,系统能够在生成回答的同时接收新指令,实现真正的双向对话。这种技术架构使AI在被打断时可以动态调整回应内容,就像人类对话中自然发生的场景那样流畅。

测试数据显示,新模型在实验室环境下已展现出显著优势。当用户中途改变需求时,BiDi能立即调整对话路径,避免传统系统常见的断线或重复响应问题。在零售客服场景模拟中,该技术成功处理了用户从退货到换货的需求转变,整个过程无需重新启动对话流程。

不过这项突破性技术仍面临稳定性挑战。内部测试显示,持续对话超过五分钟时,系统偶尔会出现语音失真或逻辑混乱的情况。开发团队原计划今年初发布技术预览版,现因优化需求可能推迟至年中,具体时间表尚未最终确定。

OpenAI研发团队透露,语音交互的流畅度提升将极大拓展AI应用场景。数据显示超过70%的用户更倾向通过语音与数字助手交互,但现有技术限制了复杂场景的应用。BiDi的实时响应能力有望推动智能音箱、车载系统等语音设备的革命性升级。

值得关注的是,新模型在工具调用方面展现出更强灵活性。知情人士称,该技术可无缝衔接邮件处理、服务预订等外部应用,用户通过自然对话即可完成复杂操作。这为OpenAI规划中的语音交互设备奠定了技术基础,公司正在探索开发具备多模态交互能力的智能终端。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version