ITBear旗下自媒体矩阵:

OpenAI发布三款实时语音模型:GPT-Realtime-2领衔,推理翻译转录全升级

   时间:2026-05-08 21:31:00 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

OpenAI 近日正式推出三款针对实时语音场景优化的全新模型,通过 Realtime API 向全球开发者开放调用。这三款模型分别聚焦推理交互、多语言翻译和低延迟转录三大核心需求,旨在破解传统语音技术中存在的延迟响应、打断处理困难及多语言支持不足等痛点,为智能语音助手、实时会议系统等应用提供底层技术支撑。

作为本次发布的旗舰产品,GPT-Realtime-2 首次将 GPT-5 级别的推理能力引入语音交互领域。该模型在保持对话自然度的同时,支持实时工具调用和复杂逻辑推理,能够动态处理用户打断、修正等突发情况。例如在导航场景中,用户可随时更改目的地或调整路线偏好,系统将同步重新规划路径并语音反馈。开发者可基于此构建支持多步骤任务执行的智能助手,显著提升语音交互的复杂度与实用性。

在多语言支持方面,GPT-Realtime-Translate 实现了 70 种输入语言与 13 种输出语言的实时互译,翻译延迟控制在人类对话节奏范围内。该模型特别优化了跨国会议场景,支持发言者切换时自动识别语种并同步输出译文,确保参会者获得无感知的翻译体验。测试数据显示,其翻译准确率在专业术语密集的科技会议场景中达到 92% 以上。

针对实时字幕和会议记录需求,GPT-Realtime-Whisper 通过流式转录技术将音频处理延迟压缩至毫秒级。该模型支持边说边转的连续工作模式,转录文本可实时显示在终端设备,特别适用于直播字幕、远程医疗问诊等对时效性要求极高的场景。实测表明,在标准网络环境下,其转录延迟较前代产品降低 67%,错误率下降 41%。

商业化层面,OpenAI 采用差异化定价策略:GPT-Realtime-2 按 Token 计费,输入费用为每百万 Token 32 美元(约合人民币 218.1 元),输出费用 64 美元(约合人民币 436.2 元),缓存输入仅需 0.4 美元;翻译与转录模型则按使用时长计费,前者每分钟 0.034 美元,后者每分钟 0.017 美元。这种灵活的定价体系为不同规模的开发团队提供了成本可控的技术接入方案。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version