ITBear旗下自媒体矩阵:

阶跃星辰Step-Audio-EditX来袭:30亿参数开启语音编辑“活文本”新时代

   时间:2025-11-10 14:21:05 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

国内AI领域迎来突破性进展——阶跃星辰(StepStepFun AI)近日推出全球首个LLM级音频编辑模型Step-Audio-EditX,以自然语言指令驱动语音编辑的创新模式,彻底打破传统音频制作的技术壁垒。用户通过简单指令如“将语气调整为东北喜剧腔调”或“在结尾添加3秒羞涩笑声”,即可实现音色、情感、节奏的精准调控,让语音编辑变得像修改文字一样直观。

该模型的核心竞争力源于其独特的参数压缩技术。研发团队将原始130亿参数的模型压缩至30亿规模,在降低90%部署成本的同时,性能指标实现逆势提升。其零样本语音克隆功能仅需10秒参考音频,即可高精度复现目标音色;多轮迭代编辑特性支持用户通过“再增加20%语速”“强化愤怒情绪”等细化指令,逐步逼近理想效果。

在中文语境适配方面,Step-Audio-EditX展现出显著优势。模型深度理解普通话、四川话、粤语及英语的方言特质,能自然呈现川渝方言的市井幽默感、粤语语气词的微妙情感变化。第三方盲测显示,其方言表现力评分较同类产品高出17%,情感传递准确率达93.7%,音色还原度达98.1%,在自然度、情感表达、音色保真三大维度全面领先Minimax、字节跳动Doubao等闭源方案。

技术突破正催生多元化应用场景。短视频创作者可一键切换“霸道总裁”“软萌学妹”等个性化声线;有声书制作实现单人演绎多角色情感对话;方言内容通过AI转译可快速适配国际市场,如将四川话脱口秀转化为美式喜剧风格;听障群体的语音合成系统首次具备情感温度,告别机械刻板的表达方式。

行业分析师指出,Step-Audio-EditX重新定义了音频内容的生产范式。当语音从“一次性录制”转变为可反复雕琢的动态文本,创作者将获得前所未有的表达自由。目前该模型已开放线上体验入口(https://stepaudiollm.github.io/step-audio-editx/),若未来通过API接口或手机系统集成,这项“语音魔法工具”有望成为全民创作的标配。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version