ITBear旗下自媒体矩阵:

雷军宣布小米AI创新成果闪耀ICASSP 2026,多领域技术突破引关注

   时间:2026-01-22 15:03:25 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

小米在人工智能领域再获突破,多篇关于音频与多模态技术的创新研究成果成功入选国际顶级学术会议ICASSP 2026。这一会议作为全球音频领域最具影响力的学术平台之一,将于今年5月在西班牙巴塞罗那举办,其历史可追溯至1976年美国费城的首届会议。此次入选的成果覆盖音频理解、音乐生成评估、联邦学习泛化、跨模态预训练及视频音效生成等多个前沿方向,展现了小米在AI技术领域的全面布局与深厚积累。

在音频理解领域,小米团队提出的ACAVCaps数据集通过自动化标注框架突破了传统数据集的局限性。该框架利用多专家模型并行提取声音事件、音乐特征、说话人属性等元数据,并结合大语言模型的逻辑整合能力,将碎片化信息转化为层次分明的自然语言描述。这一创新使数据集包含约470万条音频-文本对,不仅规模领先,更实现了从特征识别到语义理解的跨越。研究团队表示,ACAVCaps将很快开源,为音频AI研究提供高质量基础设施。

针对联邦学习中的泛化难题,小米与高校合作开发的FedDCG框架首次实现了类别与域的联合优化。该框架通过域分组策略避免决策边界混淆,采用类特定协作训练机制交替优化泛化能力。实验数据显示,在Office-Home数据集上训练的模型在ImageNet-R测试中准确率达70.3%,较现有最优方法提升近3个百分点,尤其在低采样率场景下仍保持优势。这一成果为跨域图像分类和隐私保护模型部署提供了新范式。

音乐生成评估领域,双编码器架构FUSEMOS通过融合CLAP与MERT模型的互补优势,显著提升了评估精度。该架构采用晚期融合策略保留模态独立性,引入排名感知复合损失函数增强对人类偏好顺序的理解。在Musiceval基准测试中,FUSEMOS的均方误差和排序相关性指标均优于现有方法,为文本到音乐生成系统的发展提供了可靠评估工具。

跨模态预训练方面,GLAP模型实现了语音、音乐、环境音的统一对齐,并支持50种语言的零样本关键词识别。在语音检索任务中,该模型在英文LibriSpeech和中文AISHELL-2数据集上分别达到94%和99%的召回率,同时保持声音检索领域的领先水平。其多语言泛化能力可直接赋能小米"人车家全生态"中的语音交互、异常声音监测等场景,降低下游研发门槛。

视频音效生成领域,MeanFlow模型通过平均速度场建模实现一步生成,推理速度提升2至500倍的同时保持音质领先。该模型创新引入标量重缩放机制解决失真问题,8秒音频生成仅需0.056秒。其跨任务泛化能力使文本生成音效无需额外微调,为影视配音、短视频创作等场景提供高效解决方案。

在多模态检索领域,统一学习框架通过整合图像、文本检索与意图理解任务,实现了跨模态语义对齐。该框架支持多语言输入,在XTD10等数据集上的召回率超越主流模型1.1至2.7个百分点,同时降低系统内存占用48.4%,为小米手机等设备提供了高效检索解决方案。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version