滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

OpenAI发布三款实时语音模型助力开发者打造全新语音交互应用体验

时间：2026-05-11 06:20:28 来源：快讯编辑：快讯 IP：北京 发表评论无障碍通道

OpenAI近日正式推出三款全新实时语音模型，为开发者社区带来突破性技术工具。这三款模型分别聚焦不同应用场景，通过集成至Realtime API向全球开发者开放，标志着语音交互技术进入多模态实时处理新阶段。

作为技术核心的GPT-Realtime-2模型具备GPT-5级推理能力，在实时对话场景中展现出显著优势。该模型能够同时处理多项任务：在解析复杂语义请求时，可自主调用外部工具获取信息；当对话出现中断或需要修正时，能智能调整对话路径并保持上下文连贯性。测试数据显示，该模型在医疗咨询、教育辅导等需要深度推理的场景中，响应自然度提升40%，任务完成率提高25%。

针对跨语言交流需求，GPT-Realtime-Translate模型支持70种语言输入与13种语言输出的实时转换。其创新之处在于同步追踪说话者语调变化，在保持语义准确性的同时，输出语音的节奏、重音与原始语音高度匹配。这项技术已应用于国际会议同声传译系统，使跨语言对话延迟控制在0.8秒以内。

第三款模型GPT-Realtime-Whisper专注于流式语音转录，在新闻直播、远程会议等场景表现突出。该模型采用动态分段处理技术，在用户说话过程中持续优化转录结果，支持实时编辑与格式调整。实测表明，其转录准确率在标准环境下达98.7%，特殊领域术语识别率提升至92%，较前代产品延迟降低60%。

在商业化层面，OpenAI公布了差异化定价策略：GPT-Realtime-2采用代币计费模式，输入代币每百万32美元（缓存输入0.4美元），输出代币每百万64美元；翻译模型按分钟计费，每分钟0.034美元；转录模型每分钟0.017美元。开发者可通过Playground平台快速集成模型，已安装Codex的用户可直接调用API创建应用。

技术文档显示，这些模型在训练阶段引入了新型注意力机制，通过优化神经网络架构减少计算冗余。特别在语音特征提取环节，采用三维卷积处理时序、频谱和空间信息，使模型在嘈杂环境下的识别能力提升35%。目前已有金融、医疗领域的多家企业启动技术验证，探索在智能客服、远程诊疗等场景的应用可能性。

更多>同类资讯

打破科研与公众壁垒：科学家为何亟需补上科学传播这一课？

为什么科学家接受了大量科研训练，却很少有人系统学习如何向公众解释科学？作者认为，很多科学家高估了公众的知识储备，也低估了沟通的难度。学生需要阅读前沿科研论文，并将其改写成类似《纽约时报》科学专栏的文章，…

06-12

上交会名校“未来科技秀”：6G盒子、氢电机器人、脑机接口齐亮相

面对长三角地区科技局、技术经理人、行业协会代表等专业观众到场，上海市教委科技发展中心表示，上交会高校展区在展会期间组织6场“创智汇”路演活动，打通高校实验室与市场之间链路，并组织3场参展高校与企业现场签约，…

06-12

质量功能展开QFD：60年历久弥新，互联网时代需求管理新利器

QFD方法论历经60年，适应互联网时代，通过用户需求、技术参数、关联矩阵和竞品评估，助力精细化运营与降本增效，推动需求精准化落地。

06-12

上交会名校竞逐未来赛道：6G盒子、氢电机器人、脑机接口齐亮相

面对长三角地区科技局、技术经理人、行业协会代表等专业观众到场，上海市教委科技发展中心表示，上交会高校展区在展会期间组织6场“创智汇”路演活动，打通高校实验室与市场之间链路，并组织3场参展高校与企业现场签约，…

06-12

李想谈AI进物理世界：基于汽车形态的具身智能或成首个AI机器人

06-12

2026年AI外呼选型指南：中小企业如何匹配轻量级与全栈式方案？

核心结论：2026年评估AI外呼方案应围绕语音交互深度、业务执行能力、合规与线路、扩展与集成四个维度展开，而非仅比较价格和通话时长。推荐路线：合力亿捷 SYNEROW 标准版（SaaS/混合云）核心能力：…

06-12

江西一传媒公司借AI炮制理想汽车不实信息报案后已致歉并承诺整改

06-11

李想直面“不务正业”质疑理想汽车AI布局与机器人规划即将揭晓

06-11

台积电CFO黄仁昭：通胀致成本攀升，或调升晶圆代工价且看好AI趋势

06-11

AI高考作文大比拼：DeepSeek-V4记叙文获高分，混元老师慷慨给满分

06-11

广汽传祺双星闪耀：向往M8与E8插混MPV上市，配置丰富价格亲民

06-11

半导体设备ETF逆势上扬超5% 影视机器人ETF走低市场分化明显

06-11

OpenAI或大幅降价应对Anthropic竞争价格战下上市前景添变数

06-11

AI高考作文大比拼：DeepSeek-V4记叙文脱颖而出，获混元高分盛赞

06-11

OpenClaw创始人推文引热议，AI圈新宠loop工程究竟是何方神圣？

06-11

点击查看更多 +

全站最新

阿里钉钉换帅陈宇森接棒：AI Native浪潮下，以“人”为本重塑组织新篇

从学霸到阿里最年轻CEO：陈宇森能否用AI思维重塑钉钉未来？

钉钉换帅陈宇森掌舵，AI Agent战略下飞书企业微信面临新挑战

千问高考志愿Agent免费上线：以AI之力守护教育公平与选择尊严

京东A2P2协议发布：智能体自主支付有规则可循，资金安全追溯无忧

北京地铁回应张雪事件：闸机防夹未关时插卡，无效票卡被退引误会

热门内容

本栏最新

千问高考志愿Agent免费上线：以AI之力守护教育公平与选择尊严

2026中国AI智能体大会7月启幕，聚焦九大方向共探Agentic AI新未来

AIVA开启AI汽车新纪元：以AI为核重塑出行携火山引擎共拓未来

极狐问道V9携手卓驭科技：20万级MPV首搭舱驾一体告别延迟降成本

上汽荣威家越07官图亮相：建筑式设计搭配AI大模型，三季度将发布

吉利第5代帝豪i-HEV 6月16日上市，五大维度突破叫板日系混动

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.

OpenAI发布三款实时语音模型 助力开发者打造全新语音交互应用体验

OpenAI发布三款实时语音模型助力开发者打造全新语音交互应用体验