ITBear旗下自媒体矩阵:

OpenAI升级语音模型GPT-RealTime:功能增强,价格更亲民

   时间:2025-08-30 02:55:00 来源:智东西编辑:快讯团队 IP:北京 发表评论无障碍通道
 

在科技界的一次重大突破中,OpenAI于近日凌晨震撼发布了专为开发人员设计的GPT-RealTime语音转语音模型。与此同时,该公司还对其API功能进行了全面升级,新增了远程MCP服务器支持、图像输入功能以及SIP电话呼叫支持。

据OpenAI官方介绍,GPT-RealTime是其迄今为止最为先进的语音合成模型。该模型在遵循复杂指令、精确调用工具以及生成自然流畅的语音方面实现了显著提升。GPT-RealTime不仅能够自然朗读包含重复字母和数字的文本,还能无缝切换语言,甚至能够捕捉到笑声等非语言信号,为用户带来更加真实、生动的对话体验。

为了进一步提升用户体验,OpenAI还推出了两个全新的语音——Cedar和Marin,它们将作为Realtime API的独家语音选项提供给用户。在定价方面,通用版Realtime API和全新的GPT-RealTime模型现已对所有开发者开放。相较于之前的预览版,GPT-RealTime的价格下调了20%,其中每百万token音频输入价格为32美元,缓存输入为0.4美元,每百万token音频输出价格为64美元。

OpenAI此次升级还特别增加了对对话上下文的细粒度控制功能。这一功能允许开发者设置智能token限制,并一次截断多个对话回合,从而显著降低长会话的成本。自去年10月OpenAI发布Realtime API的公开测试版以来,已有数千名开发者使用该API并提出了宝贵的建议。

然而,尽管GPT-RealTime模型受到了部分用户的热烈欢迎,认为它将使语音应用变得更加有趣,但仍有一些开发者表示担忧。他们认为,尽管模型的声音有所改进,但仍显得过于机械,而旧的语音角色也只是在表现力上略有提升。

在技术层面,GPT-RealTime在音频质量、理解用户指令以及遵循指令等方面均实现了显著改进。该模型能够产出更加自然的高质量语音,并能遵循细粒度的指令,如“以快速专业的语气说话”或“用法国口音富有同情心地表达”。在理解用户指令方面,GPT-RealTime能够捕捉笑声等非语言线索,在句子中切换语言,并调整语气。

GPT-RealTime在构建语音转语音应用时,能够更准确地遵循开发者的指令。在衡量指令遵循准确性的MultiChallenge音频基准测试中,GPT-RealTime的得分相较于旧模型有了显著提升。同时,在测量函数调用性能的ComplexFuncBench音频评估中,GPT-RealTime也取得了优异的成绩。

除了模型本身的改进外,Realtime API还新增了多项实用功能。开发者现在可以通过在会话配置中传入远程MCP服务器的URL来启用MCP支持,无需手动设置集成。开发者还可以在Realtime API会话中添加图像、照片和截图,使模型能够基于用户实际看到的内容来构建对话。这一功能将极大地提升用户体验,使用户能够提出更加具体、直观的问题。

为了防止实时语音对话被滥用,Realtime API还包含多层安全防护和缓解措施。OpenAI对Realtime API会话采用主动分类器,一旦检测到有害内容,将立即中止对话。同时,开发者还可以使用Agents SDK添加自己的额外安全防护措施,确保对话的安全性和合规性。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version