滚动资讯

当前位置：首页 > 资讯 > 信息流 > 正文内容

OpenAI发布GPT-Realtime，革新语音Agent开发，实现端到端语音交互

时间：2025-08-31 17:45:33 来源：ITBEAR编辑：快讯 IP：北京 发表评论无障碍通道

OpenAI近期揭晓了其GPT-Realtime模型及Realtime API的重大革新，这一突破为生产级语音Agent的开发铺设了全新道路。GPT-Realtime，作为前沿的语音到语音（speech-to-speech）转换模型，摒弃了传统的三步走策略——先将语音转为文本，再生成文本，最后转回语音，而是直接以声音作为输入输出，显著缩短了延迟，同时细腻保留了语音中的各类细节。

在模型能力方面，GPT-Realtime展现出了更为自然和富有表现力的语音生成效果。它能够根据如“迅速且专业”或“法式细腻风格”等细致入微的语气指令，灵活调整输出。模型在细节把控上也实现了飞跃，无论是笑声识别、语调转换、语言切换，还是在多语言环境下准确复述VIN码、电话号码等复杂信息，都游刃有余。在Big Bench Audio评估中，其逻辑推理得分高达82.8%，指令执行准确率跃升至30.5%，功能调用准确率也达到了66.5%。

Realtime API的新特性同样引人注目。它支持远端MCP工具服务器，使得开发者可以轻松扩展工具能力，实现即插即用。更令人惊喜的是，API还支持图像输入，这意味着语音助手不仅能“听见”，还能“看见”并理解截图内容，作出相应回应。同时，通过支持SIP电话协议，语音助手能够直接与传统电话网络相连，实现语音代理呼叫功能。API还引入了可复用提示（prompts），允许开发者保存设置，极大地提升了构建效率。

在声线方面，GPT-Realtime也带来了新惊喜。新增的“Cedar”与“Marin”两种声音为用户提供了更多选择，而现有八种语音的音质和自然度也得到了显著提升，为用户带来了更加沉浸式的体验。

关于上线与价格，Realtime API已全面开放给公众使用。GPT-Realtime的定价相比之前的预览版降低了20%，音频输入1M tokens的费用为32美元（缓存费用为0.4美元），音频输出的费用则为64美元/1M tokens。这一价格调整无疑将为更多开发者提供使用GPT-Realtime的机会，推动语音Agent技术的进一步发展。

更多>同类资讯

半人马座α星A星宜居带现气态巨行星，椭圆轨道或拓展行星演化新认知

09-22

10倍地球质量！开普勒-725c现身宜居带，或藏生命新可能

09-22

木星磁层电子加速奇景：“擀面杖”效应下的粒子运动探秘

09-22

多学科视角下中国古代家猪驯化与饲养的学术探索与成果分享

09-22

太阳系边缘神秘天体：起源成谜，科研逐梦探寻未知奥秘

09-22

WASP-121b：极端温差下的钛云世界，系外行星的奇幻探索

09-22

土星环步入“中年危机”：物质流失下光环何时彻底消散？

09-22

18国携手观测：“躺转”天王星平流层季节冷暖为何如此极端？

09-22

谷神星阿胡纳穹丘：冰火山中的“盐泥密码”，解锁太阳系早期演化之谜

09-22

火星南极春日“变装”：冰盖消退现多边形霜边与暗色地形，探秘红色星球

09-22

海卫一：冰火山间歇泉喷涌，宇宙冷秘中藏着生命可能？

09-22

早期宇宙现“超级吃货”黑洞：每年吞噬300至3000个太阳质量，挑战生长理论

09-22

冥王星冰火山喷发物藏玄机：或为地下海洋与岩石接触提供关键证据

09-22

NASA“毒蛇”月球车项目复活 2027年将随“蓝月亮”着陆器探月南极

09-22

神舟二十一号发射在即，杨利伟转型引路人，中国航天续写新传奇

09-22

点击查看更多 +

全站最新

雷军官宣小米17系列9月25日发布，卢伟冰称背屏设计斥资10亿，直言不惧友商模仿

雷军官宣小米17系列将发布！同期举办年度演讲，分享芯片汽车故事引期待

雷军官宣：9月25日晚7点开启第6次年度演讲，聚焦《改变》分享玄戒芯片与小米汽车故事

小米17系列9月25日发布，雷军将作《改变》演讲，此前直言全面对标iPhone

雷军官宣小米17系列将发布！同期举办年度演讲，网友直呼期待

‍雷军9月25日晚7点年度演讲，揭秘小米玄戒芯片与汽车背后的创新故事‍

热门内容

本栏最新

NVIDIA50亿美元投资Intel，台积电风险可控，先进制程优势或延续至2030年

复旦团队绘制代谢组图谱：解锁疾病早期预警密码，助力精准医疗

国庆中秋假期将至，租台无人机记录美好旅程成热门新选择

国庆假期出行新选择：无人机租赁受热捧，3C数码租赁市场火热升温

字节跳动凌晨发声：TikTok美国业务将依法推进，服务美国用户不停歇

对话松延动力姜哲源：25岁团队如何从创业民房走向“千台俱乐部”并冲刺交付？

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.