ITBear旗下自媒体矩阵:

微软GPT-realtime模型上线:逼真语音+多模态输入,实时AI能力再升级

   时间:2025-09-05 15:39:25 来源:ITBEAR编辑:快讯团队 IP:北京 发表评论无障碍通道
 

微软近期在Azure AI Foundry平台上正式推出了其最新的语音转语音(S2S)技术——GPT-realtime。这一创新产品集微软在语音技术领域的多项最新成果于一身,以自然语言处理的流畅性、音频质量的高水准以及指令执行的精准性为核心竞争力。

现在,开发者们可以借助GPT-realtime的全新实时API,体验到更加自然、富有表现力的语音输出和高质量的音频效果。微软还同步推出了两款全新的语音风格——Marin和Cedar,为用户带来前所未有的逼真与清晰的语音合成体验。

在技术层面,GPT-realtime带来了多项关键提升。它不仅增强了功能调用的灵活性,还显著提高了指令执行的准确性。尤为GPT-realtime创新性地支持图像输入,允许用户在语音交互中直接插入图像进行讨论,实现了多模态交互的新突破,而无需依赖视频流的传输。

除了技术上的全面升级,微软还对GPT-realtime的定价策略进行了优化。与先前的gpt-4o-realtime预览版相比,正式版的GPT-realtime价格下调了20%,计费方式改为依据每百万代币(token)的使用量来计算,这无疑将吸引更多开发者和企业的关注与使用。

此次GPT-realtime的发布,彰显了微软在扩展其实时AI能力方面的坚定决心。通过将高质量的语音合成、出色的音频表现以及多模态输入能力融为一体,GPT-realtime有望在多个应用场景中大放异彩,从高端客户支持服务到创新的辅助技术工具,都将受益于这一技术的强大支持。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version