ITBear旗下自媒体矩阵:

OpenAI发布GPT-Realtime,革新语音Agent开发,实现端到端语音交互

   时间:2025-08-31 17:45:33 来源:ITBEAR编辑:快讯团队 IP:北京 发表评论无障碍通道
 

OpenAI近期揭晓了其GPT-Realtime模型及Realtime API的重大革新,这一突破为生产级语音Agent的开发铺设了全新道路。GPT-Realtime,作为前沿的语音到语音(speech-to-speech)转换模型,摒弃了传统的三步走策略——先将语音转为文本,再生成文本,最后转回语音,而是直接以声音作为输入输出,显著缩短了延迟,同时细腻保留了语音中的各类细节。

在模型能力方面,GPT-Realtime展现出了更为自然和富有表现力的语音生成效果。它能够根据如“迅速且专业”或“法式细腻风格”等细致入微的语气指令,灵活调整输出。模型在细节把控上也实现了飞跃,无论是笑声识别、语调转换、语言切换,还是在多语言环境下准确复述VIN码、电话号码等复杂信息,都游刃有余。在Big Bench Audio评估中,其逻辑推理得分高达82.8%,指令执行准确率跃升至30.5%,功能调用准确率也达到了66.5%。

Realtime API的新特性同样引人注目。它支持远端MCP工具服务器,使得开发者可以轻松扩展工具能力,实现即插即用。更令人惊喜的是,API还支持图像输入,这意味着语音助手不仅能“听见”,还能“看见”并理解截图内容,作出相应回应。同时,通过支持SIP电话协议,语音助手能够直接与传统电话网络相连,实现语音代理呼叫功能。API还引入了可复用提示(prompts),允许开发者保存设置,极大地提升了构建效率。

在声线方面,GPT-Realtime也带来了新惊喜。新增的“Cedar”与“Marin”两种声音为用户提供了更多选择,而现有八种语音的音质和自然度也得到了显著提升,为用户带来了更加沉浸式的体验。

关于上线与价格,Realtime API已全面开放给公众使用。GPT-Realtime的定价相比之前的预览版降低了20%,音频输入1M tokens的费用为32美元(缓存费用为0.4美元),音频输出的费用则为64美元/1M tokens。这一价格调整无疑将为更多开发者提供使用GPT-Realtime的机会,推动语音Agent技术的进一步发展。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version