OpenAI在近期的一次技术直播活动中,正式揭晓了其最新的语音模型——GPT-realtime。这款模型专为语音人工智能代理设计,旨在提供前所未有的自然语音交互体验。
GPT-realtime以其卓越的多模态特性脱颖而出,不仅能生成流畅自然的语音,还能精准模仿人类的语调、情感和语速变化。更重要的是,它能够理解图像内容,并将图像信息与语音或文本对话相结合,为客服、教育、金融、医疗等多个领域打造智能化语音交互体验。
GPT-realtime新增了Marin与Cedar两种特色语音,并对原有8种语音进行了全面优化,使得语音选择更加丰富多样。该模型还能在语音中自动切换三种情绪,为用户带来更加丰富的听觉享受。
与传统语音模型相比,GPT-realtime的最大亮点在于其智力、推理和理解能力。它能够敏锐捕捉笑声等非语言信号,自如地在句子中切换语言,并根据场景需求灵活调整语气,使对话更加自然真实。
在评估测试中,GPT-realtime展现出了强大的性能。在多种语言环境下,它对字母数字序列的检测准确率大幅提升。在BigBenchAudio评估中,该模型更是以82.8%的准确率,成为目前最强的智能语音模型。
GPT-realtime在指令遵循能力方面也取得了显著进步。开发者可以对模型进行指令自定义,包括说话方式、特定场景下的对话内容等。经过深度优化,GPT-realtime对细微指令也能产生显著的引导效果。在MultiChallenge音频基准测试中,其指令遵循准确率从旧模型的20.6%提升至30.5%。
GPT-realtime在函数调用能力方面也进行了全方位优化。在ComplexFuncBench测试中,其得分从旧模型的49.7%飙升至66.5%。异步函数调用功能也得到了极大改进,使得长时间运行的函数调用不再影响会话流程。
GPT-realtime还支持图像输入功能,开发者可以在Realtime API会话中自由添加图像、照片、截图等,与音频或文本结合使用。这一功能使得模型能够基于用户实际所见内容展开对话,大大提高了交互的个性化和精准度。
与GPT-realtime同步上线的还有Realtime API的一系列全新功能。开发者只需在会话配置中传入远程MCP服务器的URL,即可快速启用MCP支持。这种配置方式大大简化了智能体功能的扩展过程,提高了开发效率。
Realtime API还新增了会话初始协议支持和可复用提示功能,进一步提升了其集成便捷性和生产使用灵活性。会话初始协议支持使得Realtime API能够与公共电话网络、专用分组交换机系统等建立连接,拓展了应用连接范围。而可复用提示功能则允许开发者保存并在多个会话中重复使用提示,减少了重复性劳动。
在安全与隐私保障方面,Realtime API内置了多层严密的防护措施。通过实时监测对话内容,一旦检测到有害内容,会立即终止会话,确保使用环境的安全与健康。开发者还可以借助Agents SDK添加自定义安全防护措施,实现更加精细化的安全管理。
在定价与可用性方面,GPT-realtime和Realtime API均已正式开放给所有开发者使用。与预览版相比,GPT-realtime的价格降低了20%。同时,OpenAI还为对话上下文新增了精细控制功能,开发者可以灵活设置智能token限制,降低长会话成本。