谷歌近日推出全新实时语音模型Gemini 3.1 Flash Live,标志着语音交互技术进入新阶段。该模型在Gemini应用、Search Live及Google AI Studio同步上线,开发者可通过预览版率先体验语音驱动应用开发等创新功能。据多项评测显示,其性能已超越GPT-Realtime-1.5、Qwen3 Omni 30B等同类模型,引发行业对语音交互革命的广泛讨论。
核心升级聚焦于实时语音Agent能力,其中最引人注目的是"语音编程"(vibe coding)功能。开发者在Google AI Studio中可通过自然语言指令直接修改应用界面,例如要求"放大麦克风图标"或"添加黄色波点背景",系统能实时生成对应视觉效果。这种交互方式突破传统编程模式,使开发过程更接近人类思维节奏,测试中用户甚至能在单次对话中完成从基础布局到风格重做的全流程调整。
模型在连续对话处理方面实现关键突破。上下文记忆窗口扩展至前代两倍,支持200多个国家和地区的跨语言实时交互。在复杂场景测试中,当用户突然切换语言或插入现实情境信息(如"刚从医院回来"),系统仍能保持对话连贯性。这种能力在老年用户AI硬件设备Ato的演示中尤为突出,模型可无缝切换英语与西班牙语完成日常陪伴交流。
性能提升获得第三方评测验证。ComplexFuncBench音频测试显示,其函数调用准确率达90.8%,较去年12月版本提升19.3个百分点。在Scale发布的Audio MultiChallenge榜单中,该模型以36.1%的得分领先GPT-Realtime-1.5(34.7%)和Qwen3 Omni 30B(24.3%)。这些数据表明,模型在工具调用、多语言处理等核心指标上已形成技术优势。
技术突破伴随商业落地加速。谷歌公布API定价策略:文本输入每百万token 0.5美元,音频输入3美元,支持多模态混合调用。目前该版本正分批推送至移动端用户,iOS和安卓设备已陆续收到更新。不过初期体验报告显示,中文语音交互仍存在机械感,多轮对话偶尔出现中断现象,完整连续性有待进一步优化。
行业竞合格局呈现新态势。国内阶跃星辰Step-Audio R1.1刚在Artificial Analysis语音推理榜单以96.4%准确率登顶,展现中国团队在特定领域的领先优势。对比来看,谷歌侧重构建全栈语音能力体系,覆盖从开发工具到消费级应用的完整链条;国内产品则更强调用户粘性,通过情感化交互设计积累规模效应。这种差异化竞争正推动语音Agent技术向更深层次发展。







