ITBear旗下自媒体矩阵:

火山引擎豆包音频生成模型1.0来袭:一键生成完整音频,长音频音色始终如一

   时间:2026-06-24 16:39:40 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

火山引擎近日推出了一款名为豆包音频生成模型1.0(Doubao-Seed-Audio 1.0)的创新产品,标志着音频创作领域迎来重大变革。这款模型突破传统音频制作模式,支持以文本或音频为输入,通过单一指令即可生成包含对白、音效和背景音乐的完整音频作品,彻底颠覆了人工多轨剪辑的繁琐流程。

在传统音频制作中,创作者需要分别生成对白、音效和配乐,再通过手动对齐和多轨混音完成作品,这一过程不仅耗时耗力,还高度依赖专业后期技术。豆包音频生成模型1.0将这一复杂流程简化为一条指令:用户只需在提示词中定义角色台词、语气、情绪节奏,嵌入笑声、叹息等细节,模型即可同步生成背景音乐与环境音效,直接输出可上线的成品内容,如有声剧、播客节目或品牌音频。

针对长音频创作中角色音色前后不一致的痛点,该模型通过文生音频与参考音频的深度联动技术,实现了单次2分钟音频创作及多次延长功能下的音色统一。这意味着在有声书、播客或长剧集等场景中,角色在第1分钟与第10分钟的音色将保持高度一致,创作者无需反复比对修音,显著提升了制作效率与作品质量。

更值得一提的是,模型支持音色与风格的解耦控制,同一音色可适配不同情绪和语境,甚至实现“一声多角”的差异化表达。例如,同一个声音可在不同角色设定下呈现截然不同的语气特征,为角色配音和创意音频生产提供了更大灵活性。目前,火山方舟已开放API邀测,个人用户可在体验中心获得30分钟免费创作额度,该模型也将陆续接入剪映、即梦、番茄等平台。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version