滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

浙江大学与小米联合研究：用“拼图游戏”让AI学会视听融合新技能

时间：2026-04-18 05:06:03 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

浙江大学与小米公司联合开展的一项研究，为人工智能跨模态理解领域开辟了新路径。这项发表于arXiv平台的研究，通过创新性的训练框架，成功解决了多模态模型依赖单一感官的固有缺陷。研究团队提出的OmniJigsaw方法，通过将视频分解重组的独特训练模式，使AI系统在无需人工标注的情况下，实现了视觉与听觉信息的深度融合。

传统多模态模型在处理视频数据时面临根本性挑战：现有技术难以标注视觉与听觉之间的复杂关联。研究团队另辟蹊径，将视频切割为多个片段并随机排序，要求模型还原原始顺序。这种设计巧妙利用视频本身的时序特征作为天然标签，使模型在重组过程中被迫分析画面内容与声音线索的内在联系。实验数据显示，经过该方法训练的模型在15个基准测试中平均提升2.3个百分点，尤其在复杂场景理解任务中表现突出。

研究揭示了多模态训练中的"捷径效应"现象：当同时提供视觉与听觉信息时，模型会本能地选择更容易解析的模态进行决策。为破解这一困境，团队开发了片段级模态遮蔽策略，对每个视频片段独立决定保留视觉或听觉信息。这种动态遮蔽机制迫使模型在不同片段间切换分析模式，例如在烹饪视频中，模型需同时理解切菜动作的画面特征与解说音频的时序关系，从而构建完整的场景认知。

数据筛选机制是该研究的另一创新点。研究团队构建了双层过滤系统，首先通过动态帧差分析和音频频谱检测排除静态内容，继而利用轻量级多模态模型评估视频的时序逻辑性。在初始收集的49,619个样本中，仅有16.5%通过严格筛选进入训练集。这种高标准筛选确保了训练数据的质量，使模型能够专注于学习有价值的时空关联特征。

强化学习框架的设计同样关键。研究团队引入了动态奖励机制，当模型完全正确还原视频顺序时才给予全额奖励，单个片段错误即大幅折扣奖励值。这种设计有效防止模型陷入局部最优解，促使系统持续探索最优解空间。实验表明，采用该奖励机制的模型在训练后期仍保持性能提升，而对照组模型在中期即陷入停滞。

定性分析显示，经过特殊训练的模型展现出显著不同的推理模式。在处理访谈视频时，该模型能准确识别画面中手势变化与语音强调点的对应关系，而传统模型则仅依赖语音内容排序。这种差异源于新方法强制模型建立跨模态关联，使其在分析每个片段时都需同时考虑视觉动态与音频特征。

该研究对实际应用场景具有重要启示。在会议记录分析任务中，训练后的模型能同步识别演讲者的手势变化与重点语句，生成包含时空信息的结构化摘要。在教育视频处理领域，系统可准确关联实验操作画面与解说音频的关键节点，提供更精准的内容检索服务。这些能力突破标志着AI从单一模态理解向多模态协同推理的重要跨越。

研究团队指出，当前方法在动态片段划分和奖励函数设计方面仍有优化空间。未来工作将探索自适应片段长度调整机制，以及引入对推理过程的质量评估。该研究的完整技术细节已公开于arXiv平台，为多模态学习领域提供了新的理论框架与实践路径。

更多>同类资讯

小米汽车官司有果：法务护企与夸大宣传之鉴，造车下半场如何稳行？

05-15

从提示词到指手画脚：Google魔法指针如何重塑AI交互新未来？

05-15

京东AI新布局：以真实场景数据为基，掘金物理AI新赛道

05-15

解码抖音电商财富密码：10家上市公司财报里的增长新路径

05-15

雷军宣布小米自动驾驶新突破：Xiaomi OneVL框架发布并全面开源邀全球共研

05-15

百度智能云“新全栈”：为智能体规模化落地打造产业“电力系统”

05-15

Create2026大会：李彦宏谈AI新趋势，百度多款智能体产品集中焕新

05-15

马斯克人民大会堂前360度全景拍摄，科技视角下的独特记录

05-15

从Token到DAA：AI度量衡之变，谁更能诠释AI商业价值新走向？

05-15

百度智能云携手30余家单位共建智能终端生态助力消费电子智能化升级

05-15

IBM Think大会AI战略引关注量子计算与算力合作成行业新焦点

05-15

八位AI顶尖学者携6.5亿美元入场，挑战AI自我进化新赛道，未来何去何从？

05-15

北京车展见闻：新能源浪潮下，燃油车再迎春天或成奢望

05-15

字节跳动与上汽集团携手入股自变量科技获资本青睐共拓机器人新篇

05-15

百度智能云AI能力全面开放，百万超级个体借力“芯云模体”开启新征程

05-15

点击查看更多 +

全站最新

兰博基尼Fenomeno Roadster震撼登场，1080马力敞篷超跑燃爆性能圈

德莎携全周期胶带方案亮相CIBF 2026，探索固态电池等创新应用路径

新款奔驰CLE优雅登场：2.0T配柏林之声，智能升级更懂格调人心

本田聚焦混动领域：亮相两款原型车，2029年前推15款新车型谋发展

比亚迪方程豹新车型上市：云辇-P Ultra技术赋能，开启越野新体验

比亚迪第三代元PLUS携6款新色登场，5月21日上市，配置续航亮点足

热门内容

本栏最新

字节跳动与上汽集团携手入股自变量科技获资本青睐共拓机器人新篇

百度智能云AI能力全面开放，百万超级个体借力“芯云模体”开启新征程

从工具到伙伴：AI数字人如何重塑商业世界，开启超级个体与组织新纪元

B站视频播客破亿分钟背后：AI赋能，长视频迎来新价值增长期

百度智能云发力电商赛道：以AI全流程方案破局行业增长难题

小米YU7 GT车厘子红实车图亮相，5月底发布，性能强劲续航给力

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.