近日,小米在人工智能领域取得重大突破,其多项AI创新成果成功入选国际顶级学术会议ICASSP 2026。ICASSP作为全球音频领域最具权威性与影响力的学术会议之一,自1976年在美国费城首次举办以来,已有近50年历史。此次会议将于今年5月在西班牙巴塞罗那举行,小米的入选成果涵盖了音频理解、音乐生成评估、通用音频-文本预训练、视频到音频合成等多个AI领域。
在音频理解领域,小米推出了ACAVCaps数据集,旨在突破现有数据集在规模与描述粒度上难以兼得的瓶颈。当前主流数据集普遍存在“规模大但描述简略”或“描述详尽但规模受限”的问题。ACAVCaps通过创新的自动化管线,从多维度、多视角对音频内容进行精细化刻画。该数据集构建了一套多级自动化标注框架,利用多个专家模型并行提取原始音频中的声音事件、音乐特征、说话人属性及语音内容等关键元数据,并引入大语言模型(LLM)和思维链推理策略,将碎片化的结构化信息进行逻辑整合。ACAVCaps包含约470万条音频-文本对,推动了音频AI从简单的“特征识别”向深度的“语义理解”发展,该数据集近期将全面开源。
在联邦学习领域,小米提出了FedDCG方法,以解决视觉语言模型在高效微调中面临的域泛化和类别泛化问题。传统方法通常单独处理未见的类别或未见的域,导致在测试数据同时包含未见类别和未见域的复杂场景下性能受限。FedDCG通过域分组策略和类特定协作训练机制,首次在联邦学习设置下联合解决类别和域泛化问题。该方法在Office-Home和MiniDomainNet等数据集上的实验表明,在ImageNet-R和ImageNet-A等零样本评估基准上均优于当前最先进的基线方法,证明了其在数据稀缺场景下的有效性,适用于移动端智能处理等资源受限场景。
在音乐生成评估领域,小米提出了FUSEMOS双编码器架构,以提升文本到音乐(TTM)生成系统的感知评估能力。现有自动音乐感知评估方法主要依赖单一音频编码器提取音频特征,难以捕捉音乐中复杂结构与细粒度特征。FUSEMOS融合了CLAP与MERT两大预训练模型,通过晚期融合策略和排名感知复合损失函数,实现了更精准、更贴近人类听觉感知的评估。在Musiceval基准上的实验结果表明,FUSEMOS在均方误差和排序相关性等关键指标上均显著优于现有方法。
在通用音频-文本预训练领域,小米开发的GLAP模型实现了跨音频领域(语音/音乐/环境音)与跨语言的音频-文本对齐,支持RAG形式的音频搜索。GLAP首次通过单一框架同时优化语音、音乐及声音事件的检索与分类性能,解决了传统CLAP模型领域割裂的问题。该模型在LibriSpeech和AISHELL-2语音检索上达到约94%与99%的recall@1,同时在AudioCaps等声音检索基准保持SOTA竞争力。GLAP具备多语言泛化能力,无需目标语种微调,即可在50种语言的关键词识别中展现Zero-shot能力,可直接赋能小米“人车家全生态”中的跨模态理解场景。
在视频到音频合成领域,小米提出的MeanFlow模型实现了视频同步音效生成场景中推理效率与生成质量的双重突破。MeanFlow首次在V2A任务中通过平均速度场建模替代传统流匹配模型的瞬时速度建模,解决了多步迭代采样导致的推理速度瓶颈,实现推理阶段的一步生成。针对无分类器引导应用时易出现的一步生成失真问题,创新引入标量重缩放机制,有效缓解失真现象。实验验证表明,该模型在实现推理速度大幅提升的同时,可稳定保持优质的音效输出,确保音视频语义对齐与时间同步性,综合性能处于领域领先水平。
在多模态检索领域,小米提出了一种统一的多任务学习框架,将“找图、找文、意图理解”这三个任务整合到两个模型中。传统检索中,这三个任务通常是独立训练的模型,导致同一查询被重复编码检索,且语义空间未对齐。该框架通过文本编码器同时对齐图像和文本的语义空间,并通过跨注意力机制与NLU模型进行语义交互,实现意图感知和语义增强。该框架在找图与找文任务上均达到或超过现有最优方法,在多语言测试中也表现出色,为小米手机场景下的多模态检索提供了轻量化、高性能的解决方案。











