小米在人工智能领域取得突破性进展,其多项研究成果成功入选国际顶级学术会议ICASSP 2026。该会议作为全球音频领域最具权威性的学术盛会之一,自1976年在美国费城首次举办以来,已走过近半个世纪的历史。本届会议将于今年5月在西班牙巴塞罗那举行,小米的入选成果涵盖了音频理解、音乐生成评估、联邦学习泛化、跨模态预训练等多个前沿方向。
在音频理解领域,小米团队推出的ACAVCaps数据集通过创新的多级自动化标注框架,突破了传统数据集"规模与描述粒度难以兼得"的瓶颈。该数据集利用专家模型并行提取声音事件、音乐特征等元数据,并引入大语言模型进行逻辑整合,最终形成包含470万条音频-文本对的精细化数据集。这种从整体感知到特定声音事件的全方位描述方式,使标注文本从孤立标签进化为具备上下文信息的自然语言,为音频AI从特征识别向语义理解发展提供了重要支撑。
针对联邦学习中的泛化难题,研究团队提出的FedDCG框架开创性地联合解决了类别和域泛化问题。该框架通过域分组策略避免决策边界混淆,采用类特定协作训练机制交替优化泛化能力。在Office-Home等数据集的实验表明,该方法在ImageNet-R测试中平均准确率达70.30%,较现有最优方法提升近3个百分点,特别在数据稀缺场景下仍保持领先优势。这项突破为跨域图像分类和隐私保护模型部署提供了可行路径。
音乐生成评估领域迎来重要进展,FUSEMOS双编码器架构通过融合CLAP与MERT两个预训练模型,显著提升了评估准确性。该架构采用晚期融合策略保留模态独立性,引入排名感知复合损失函数增强对人类偏好顺序的理解能力。在Musiceval基准测试中,新方法在均方误差和排序相关性等关键指标上均优于现有技术,为文本到音乐生成系统的发展提供了更精准的评估工具。
跨模态预训练方面,GLAP模型实现了音频-文本对齐的重大突破。该模型首次在单一框架内同时优化语音、音乐及环境音的检索性能,在LibriSpeech英文语音检索中达到94%的召回率,在50种语言的关键词识别中展现零样本能力。作为预训练模型,GLAP可直接应用于复杂声学场景下的语音交互、车载多模指令理解等场景,显著降低下游产品的研发门槛。
视频到音频合成领域,MeanFlow模型通过平均速度场建模实现了一步生成技术,将8秒音频的生成时间缩短至0.056秒。该模型引入标量重缩放机制解决失真问题,在保持音视频语义对齐的同时,推理速度提升2至500倍。这项突破为影视后期配音、短视频智能音效生成等实时应用场景提供了技术支撑。
多模态检索领域,统一多任务学习框架实现了"找图、找文、意图理解"的整合优化。该框架通过跨注意力机制实现语义交互,使单个模型即可完成跨模态检索任务。在多语言测试中,新方法在XTD10数据集的平均召回率达93.3%,较主流模型提升1.1至2.7个百分点,同时模型复杂度降低40%以上,为智能手机等终端设备提供了轻量化解决方案。











