上海AI实验室联合北京航空航天大学、香港中文大学及哈尔滨工业大学等顶尖机构,在AI音乐生成领域取得突破性进展。其研发的SongGen系统成为全球首个实现单阶段人声与伴奏同步生成的开源模型,相关成果已发表于第42届国际机器学习大会(ICML 2025),论文编号arXiv:2502.13128v2。
传统AI音乐生成如同流水线作业,需先生成人声再匹配伴奏,这一过程易导致节拍错位、风格割裂等问题。研究团队通过自回归变换器架构,使系统能同时协调人声与伴奏的生成需求,如同指挥家统筹交响乐团各声部。实验数据显示,该系统生成30秒音乐仅需18秒,较传统方法提速58%,且在音乐性、和谐度等指标上显著领先。
系统提供混合模式与双轨模式两种工作方式。混合模式可直接输出完整歌曲,适合普通用户快速创作;双轨模式则支持人声与伴奏的独立生成与后期调整,满足专业制作需求。研究特别开发混合增强技术,通过专项人声训练提升清晰度,使生成效果更接近专业录音水准。
在控制维度上,SongGen实现三级精细化操作:通过VoiceBPE分词器处理歌词,确保发音准确性;采用FLAN-T5编码器解析自然语言描述,支持"夏日民谣配钢琴"等复杂指令;运用MERT模型实现3秒语音克隆,可精准复现音色特征。即使无参考语音,系统也能自动生成适配声线。
数据构建方面,研究团队从8000小时原始音频中筛选出2000小时高质量片段,建立目前最大的开源歌曲数据集。该过程涉及Demucs音轨分离、语音活动检测切片、双重Whisper歌词识别及CLAP描述生成等技术,最终形成54万个标注样本,为模型训练提供坚实基础。
训练策略采用分阶段优化:首阶段进行模态对齐,建立文本、语音与音乐的映射关系;次阶段开展无语音支持训练,随机隐藏50%参考语音以增强适应性;终阶段使用10万个精选样本进行高质量精调。双轨模式则通过迁移学习,在混合模式基础上快速适配独立音轨生成。
评估体系包含客观指标与主观评测。客观方面采用FAD距离、KL散度等6项技术指标,主观测试邀请20名听众对5个维度评分。结果显示,SongGen在整体质量、文本相关性等指标上超越商业系统Suno,尤其在节拍对齐与情感表达方面表现突出。频谱分析证实,生成音频包含颤音、滑音等专业技巧。
技术局限性主要体现在三方面:当前最大生成时长为30秒,需后续扩展完整歌曲结构;采用16kHz采样率影响高保真效果;数据集以英语歌曲为主,多语言支持有待完善。研究团队正开发音频增强模块,并计划引入音乐理论框架以提升结构理解能力。
该成果具有广泛社会价值。自媒体创作者可快速生成定制配乐,解决版权难题;音乐教育者能制作分级练习素材,提升教学互动性;游戏产业可实现动态背景音乐生成,增强沉浸体验。对于专业制作人,系统可作为创意孵化器,快速验证音乐构想。
面对技术伦理挑战,研究团队强调建立AI生成内容标识制度,防止深度伪造滥用。他们已开源全部代码与数据集,推动全球研究者共同完善技术标准。用户现可通过GitHub获取系统,输入"浪漫爵士乐配萨克斯"等描述,即可体验AI音乐创作的便捷与魅力。