OpenAI宣布其“Realtime API”正式脱离测试阶段,全面投入商业运营。这款API专为企业及开发者设计,旨在推动语音助手在多个实际应用场景中的部署,涵盖客户支持、教育领域以及个人效率提升等多个方面。
Realtime API的核心亮点在于其“gpt-realtime”模型,该模型采用创新的端到端Speech-to-Speech架构,无需经过文本转换,即可直接生成并处理语音。据OpenAI介绍,相较于前代,gpt-realtime模型在响应速度、语音自然度以及复杂指令处理能力上均有显著提升。它能够捕捉笑声等非语言信号,支持对话中语言切换,并能调整语音语气,如模拟法国口音的友好语调或快速的专业语调。
gpt-realtime模型新增了“Cedar”和“Marin”两种语音选项,并对现有八种语音效果进行了优化。在性能基准测试中,该模型表现出色,Big Bench Audio测试准确率提升至82.8%,MultiChallenge测试提升至30.5%,ComplexFuncBench测试则提升至66.5%。
此次API升级还优化了工具集成流程,使得gpt-realtime模型能够更精准地选择工具、触发工具并配置参数,从而大幅提升了函数调用的可靠性。开发者可通过会话初始协议(SIP)和远程媒体控制协议(MCP)服务器,轻松连接外部工具和服务。同时,新增的可复用提示词功能允许开发者保存不同场景下的配置和工具设置,进一步提高了开发效率。
值得注意的是,Realtime API现已支持图像输入功能。用户在对话过程中可以发送截图或照片,模型能够参考图像内容进行交互,如读取图像文字或回答与图像相关的问题。开发者还可以自主控制模型访问的图像范围。
为了满足开发者在成本控制方面的需求,API新增了两项实用功能:设置token使用上限和对多轮对话内容进行精简处理。这些功能有助于在长时间会话中更好地管理成本。在价格方面,gpt-realtime模型的使用成本降低了20%,当前定价为音频输入token每百万个32美元,音频输出token每百万个64美元,缓存输入token每百万个0.4美元。
OpenAI强调,该API具备内容检测能力,若对话违反平台政策,将自动终止会话。然而,OpenAI也指出,这不应被视为唯一的安全保障手段,开发者仍需根据实际需求添加额外的安全措施。
针对欧盟用户,Realtime API提供了数据本地化存储选项,并为企业用户制定了特殊的隐私规则,以确保符合欧盟地区的数据保护法规。