在TechCrunch Disrupt2025大会上,AI语音领域的领军企业ElevenLabs的联合创始人兼首席执行官马蒂·斯塔尼斯泽夫斯基(Mati Staniszewski)提出一个引人注目的观点:AI语音模型将在两三年内步入“商品化”阶段。他指出,尽管短期内模型性能仍是核心竞争力,但长期来看,主流语言和通用音色领域的模型差异将逐步缩小。
面对“模型同质化趋势下,为何仍需大规模投入研发”的疑问,斯塔尼斯泽夫斯基坦言,当前模型仍是技术壁垒的核心。“如果AI语音不够自然流畅,用户体验就无从谈起。”他强调,ElevenLabs在模型架构上的创新,如情感表达和多语言韵律建模,正是其保持领先地位的关键。然而,公司并未止步于此,而是早已为后模型时代布局。
斯塔尼斯泽夫斯基透露,ElevenLabs的长期战略并非局限于成为“模型供应商”,而是致力于构建“AI+产品”的完整生态。他以苹果通过软硬件协同定义智能手机为例,说明ElevenLabs希望以自研模型为驱动,落地高价值应用场景,从而建立真正的竞争优势。
谈及未来1-2年的技术趋势,斯塔尼斯泽夫斯基预测,单一模态的语音模型将加速向多模态融合发展。“未来的AI将同时生成音频和视频,或在对话中实时联动大语言模型和语音引擎。”他以Google最新发布的Veo3视频生成模型为例,指出跨模态协同已成为技术前沿。为此,ElevenLabs正积极与第三方模型和开源社区合作,探索将其音频能力嵌入更广泛的AI生态,打造沉浸式虚拟人、智能客服等创新应用。
斯塔尼斯泽夫斯基认为,模型商品化并不意味着行业衰退,而是价值重心的转移。他解释道:“未来,企业会根据不同场景选择模型——客服用一个,游戏配音用另一个,教育讲解再用一个。可靠性、可扩展性和场景适配性将比单纯的音质更重要。”因此,ElevenLabs正加强API平台、开发者工具链和行业解决方案的建设,确保客户能快速将高质量语音集成到业务中。
在语音AI从技术展示转向实用落地的关键阶段,ElevenLabs的战略方向清晰而务实:短期聚焦模型优化,长期深耕产品创新。当行业逐渐形成“模型即服务”的共识时,真正的赢家或许不是参数最多的企业,而是最懂用户需求、最能将AI无缝融入人类交互场景的公司。正如斯塔尼斯泽夫斯基所言:“最好的应用场景,诞生于产品与AI的深度融合。”而ElevenLabs,正努力成为这一融合的引领者。














