美国语音生成领域迎来重要突破——初创企业Cartesia正式推出新一代语音模型Sonic-3,并宣布完成1亿美元战略融资,英伟达成为核心投资方。这款采用非Transformer架构的模型,凭借其低延迟特性在实时语音交互领域引发关注,数千家企业已将其应用于每月数百万次的对话处理。
技术团队构成堪称"学术全明星":由5位斯坦福AI实验室研究员创立的Cartesia,其核心成员包括Mamba架构主要开发者Albert Gu、前谷歌大脑工程师Brandon Yang,以及拥有斯坦福与卡内基梅隆双重学术背景的CEO Karan Goel。团队将状态空间模型(SSM)研究成果转化为商业应用,Albert Gu更凭借技术贡献入选《时代》杂志2024年全球影响力人物榜单。
与传统Transformer模型不同,Sonic-3采用的SSM架构通过持续理解对话脉络实现高效预测。实测显示,该模型中文生成响应时间仅2秒,虽流畅度待提升,但英文表现已达自然水准,纪录片旁白测试中几乎无法分辨AI痕迹。其90毫秒的模型延迟与190毫秒内端到端响应,使系统跻身全球最快实时语音AI之列。
功能层面,Sonic-3支持42种语言与500余种音色选择,中文提供10种声线,英文细分为11种地域口音。通过API参数与SSML标签,用户可精确控制音量、语速及情感表达,甚至实现笑声、语调等微妙情感转换。新增的语音克隆功能支持微调,使生成语音更贴近参考原声,自动缓冲技术则显著提升实时交互的流畅性。
商业应用方面,Cartesia构建的企业级平台集成文本转语音(Sonic)与语音转文本(Ink)模型,支持客户构建具备复杂任务处理能力的语音Agent。ServiceNow等企业已将其用于客户支持、日程管理等场景,产品副总裁Ravi Krishnamurthy评价称:"SSM架构为企业级应用带来了前所未有的速度与质量。"
融资进程显示市场高度认可:2024年12月获Index Ventures领投的2700万美元种子轮融资后,仅隔3个月便完成6400万美元A轮融资。此次1亿美元战略融资将加速技术迭代,在MiniMax、ElevenLabs等竞争对手环伺的AI音频生成赛道,Cartesia正以SSM架构开辟差异化竞争路径。











