OpenAI近日宣布,其“Realtime API”正式脱离测试阶段,全面进入生产环境应用。这一消息标志着该API已经准备好为更多的企业和开发者提供服务。
据悉,Realtime API主要针对的是企业和开发者用户,旨在帮助他们打造能够应用于客户支持、教育、个人效率提升等多个领域的语音助手。其核心组件“gpt-realtime”模型采用了创新的端到端Speech-to-Speech架构,能够直接生成并处理语音,省去了繁琐的文本转换步骤。OpenAI强调,与之前的版本相比,gpt-realtime模型在响应速度、语音自然度以及复杂指令处理能力上均有显著提升。
值得注意的是,gpt-realtime模型不仅功能强大,还具备高度的灵活性。它能够捕捉笑声等非语言信号,支持对话过程中切换语言,并能根据需求调整语音语气,如实现带法国口音的友好语调或语速较快的专业语调。该模型还新增了“Cedar”和“Marin”两种语音,并对现有的8种语音效果进行了优化,使得语音输出更加丰富多样。
在性能基准测试中,gpt-realtime模型同样表现出色。在Big Bench Audio、MultiChallenge和ComplexFuncBench等多项测试中,其准确率均有大幅提升。这一成绩无疑为gpt-realtime模型在实际应用中的表现提供了有力保障。
除了核心模型的升级,Realtime API在工具集成流程上也进行了优化。该模型能够更精准地选择适用工具、在恰当时机触发工具,并正确配置工具参数,从而大幅提升了函数调用的可靠性。开发者可以通过会话初始协议(SIP)与远程媒体控制协议(MCP)服务器连接外部工具与服务,进一步提高了开发效率。同时,可复用的提示词功能使得开发者能够保存不同使用场景下的配置与工具设置,为开发工作带来了更多便利。
Realtime API还新增了图像输入功能。用户在对话过程中可以发送截图或照片,模型能够参考图像内容进行交互,如读取图像中的文字或回答与图像内容相关的问题。这一功能使得对话内容更加丰富多彩,也为开发者提供了更多的创新空间。
为了降低开发者的使用成本,Realtime API还新增了两项实用功能。开发者可以设置token使用上限,并对多轮对话内容进行精简处理。这两项功能有助于在较长会话中更好地控制成本,提高经济效益。同时,gpt-realtime模型的使用成本也降低了20%,当前定价为音频输入token每百万个32美元,音频输出token每百万个64美元,缓存输入token每百万个0.40美元。
在安全性方面,Realtime API具备检测问题内容的能力。若对话违反平台政策,该API可自动终止会话。然而,OpenAI也提醒开发者,这不应是唯一的安全保障手段,开发者仍需自行添加专属安全要求以确保对话内容的安全性和合规性。
针对欧盟用户,Realtime API还提供了数据本地化存储选项,并为企业用户制定了特殊隐私规则,以符合欧盟地区的数据保护法规。这一举措无疑增强了欧盟用户对Realtime API的信任度和使用意愿。