ITBear旗下自媒体矩阵:

OpenAI发布三款实时语音模型:GPT-Realtime-2推理强,翻译转录也高效

   时间:2026-05-09 06:01:41 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

OpenAI 近日推出三款面向实时语音场景的专用模型,通过Realtime API向全球开发者开放调用。这三款模型分别聚焦语音推理、多语言翻译和低延迟转录三大核心需求,旨在破解传统语音交互中存在的延迟响应、打断处理困难及跨语言支持不足等痛点,为智能语音助手、实时会议系统等应用提供底层技术支撑。

作为此次发布的旗舰产品,GPT-Realtime-2首次将GPT-5级别的推理能力引入语音交互领域。该模型在保持对话自然流畅的同时,支持实时推理决策、工具调用及用户打断处理。例如当用户中途修正指令时,模型能立即调整响应策略,而非机械执行初始命令。这种能力使得开发者可构建具备复杂任务处理能力的语音助手,如自动订票系统中同时处理日期修改、座位升级等多步骤操作。

在定价体系方面,GPT-Realtime-2采用Token计费模式:音频输入每百万Token收费32美元(约合人民币218.1元),输出收费64美元(约合人民币436.2元),缓存输入费用则低至0.4美元。这种差异化定价策略既考虑了计算资源消耗差异,也为高频使用者提供了成本优化空间。

针对跨国沟通场景,GPT-Realtime-Translate支持70种语言输入与13种语言输出的实时互译。该模型通过动态调整翻译节奏,确保输出文本与说话者语速同步,特别适用于国际会议、远程医疗等需要即时理解的场景。测试数据显示,其翻译延迟控制在200毫秒以内,达到人类对话的自然节奏标准。

另一款专业模型GPT-Realtime-Whisper专注于流式转录服务,通过优化音频处理算法实现"边说边转"的零延迟体验。在会议记录、实时字幕等场景中,该模型可将转录等待时间减少70%,同时保持95%以上的准确率。其按分钟计费模式(翻译每分钟0.034美元,转录每分钟0.017美元)也降低了中小企业的使用门槛。

技术专家指出,这三款模型的发布标志着语音交互进入"实时智能"新阶段。通过将大语言模型的推理能力与语音处理技术深度融合,OpenAI正在重新定义人机语音交互的标准,为教育、医疗、客服等行业的数字化转型提供关键基础设施。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version