滚动资讯

当前位置：首页 > 资讯 > 信息流 > 正文内容

阿里开源多模态推理模型HumanOmniV2，助力AI深度理解视频中的“话外音”

时间：2025-07-08 21:34:30 来源：智东西编辑：快讯团队 IP：北京 发表评论无障碍通道

近日，阿里巴巴旗下的通义实验室向公众推出了HumanOmniV2，这是一款全新的多模态推理模型，旨在深化AI对人类复杂意图和情感的理解。

HumanOmniV2通过引入一系列创新机制，实现了对图像、视频和音频等多模态信息的深度解析。该模型不仅能够捕捉到这些模态中的显性信息，更能挖掘出隐藏的细节，有效解决了多模态推理中常见的全局上下文理解不足和推理路径简单的问题。

例如，在面对一个视频提问“女人为什么翻白眼”时，HumanOmniV2不仅分析了视频中的画面，还结合了音频信息，给出了富有洞察力的答案：“她的翻白眼更像是对一个潜在敏感话题的夸张、俏皮的反应，而非对其他人表示不满。”这种结合多模态信息进行推理的能力，使模型的回答更加精准且贴近人类的理解。

HumanOmniV2的推出，得益于通义团队在模型训练和优化方面的深入研究。他们引入了强制上下文总结机制，确保模型在推理过程中始终基于全局上下文进行。同时，大模型驱动的多维度奖励体系，包括上下文奖励、格式奖励、准确性奖励和逻辑奖励，进一步提升了模型的推理能力和准确性。

通义团队还对GRPO算法进行了改进，引入了词元级损失、移除了问题级归一化项，并应用了动态KL散度机制。这些改进使得模型在训练过程中更加稳定，泛化能力更强。

为了评估HumanOmniV2的性能，通义团队还开发了一个全模态推理训练数据集和一个评测基准IntentBench。IntentBench包含了633个视频和2689个相关问题，旨在全面评估模型对人类复杂意图和情感的理解能力。

在IntentBench上的测试中，HumanOmniV2取得了令人瞩目的成绩，准确率达到69.33%。这一成绩不仅证明了模型在多模态推理方面的强大能力，也为AI在理解和建模人类复杂意图方面提供了新的参考。

HumanOmniV2的开源，标志着阿里巴巴在AI领域的又一次重要突破。这一模型的出现，将有望推动多模态推理技术的发展，为AI在更多领域的应用提供有力支持。

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

易联众智鼎云帆大模型获生成式AI服务登记，助力民生服务数智化升级

据“网信福建”微信公众号消息，6月30日，易联众智鼎云帆大模型在福建省网信部门成功完成生成式人工智能服务登记。此次成功登记不仅是对易联众智鼎云帆大模型在民生场景适配的技术合规性与行业创新性的肯定，更是为易联众…

07-08

百度2026届校招：AI岗位超九成，新增多模态、跨模态等前沿技术职位

从招聘官网看，百度校招的AI岗位遍布AI四层技术架构：算力层面，提供了AI异构计算、云原生AI研发、云原生底座研发等相关岗位；框架层，深度学习框架、AI训练框架均有名额；模型层，有模型算法工程师、多模态大模…

07-08

大模型之后，机器人与新能源车能否逃离泡沫命运？

但在这股汹涌的资本浪潮之下，技术落地的艰难、成本控制的困局、市场培育的漫长以及政策风向的变幻，正悄然编织着可能比大模型更为巨大的泡沫陷阱。人形机器人面临的，是从“实验室玩具”蜕变为“可靠商品”的惊险一跃，技…

07-08

九四智能七周年：阿里云云+AI技术助力，智能语音产品体验全面升级

场景落地：全行业覆盖，助力企业降本增效七年来，的智能语音产品已覆盖金融、电商、教育、政企等多个领域，形成覆盖用户全生命周期的自动化运营体系。全球化布局：从“中国方案”到“全球基础设施”创始…

07-08

大模型赋能，国内会议记录实现智能化提效新突破

会后还得对着录音猜“这是谁说的”。听脑AI的协作功能，直接解决了“信息断层”问题。每个议题下的结论和待办都列出来了，法务部同事看完说：“这纪要比我们自己记的还全，不用反复开会对齐了。” 省出来的时间能…

07-08

中汽中心清华华为共话智能驾驶未来，余承东助力发布产业发展白皮书

7月8日消息，据新华网汽车今日消息，中汽中心、清华大学与华为今日联合发布《汽车智能驾驶技术及产业发展白皮书》，全景式呈现了技术与产业发展现状，对智能辅助驾驶产业所面临的机遇与挑战进行了深度分析。白皮书…

07-08

AI搜索时代，百度能否守住中文搜索霸主地位？

07-08

嫦娥五号月背采样：解锁月球背面科研新篇章，探索宇宙奥秘

07-08

B站力推视频播客扶持计划，暑期豪掷10亿流量助创作者转型

07-08

情感反诈新风口：“捞女游戏”爆火引争议

07-08

华强北AI眼镜价格打到两位数商家：技术含量不高！

07-08

苹果AirPods全球热销！累计收入将突破1000亿美元

07-08

ChatGPT/Gemini/DeepSeek合体拿下AGI测试最高分

07-08

涵盖辅助驾驶/座舱等，小鹏MONA M03推送第九次OTA升级

07-08

普华永道：未来十年全球近三成芯片恐面临铜供应中断！

07-08

点击查看更多 +

全站最新

华为Mate 80系列配置抢先看：麒麟9030处理器，性能提升20%

iPhone 17 Air新配色曝光：淡雅浅蓝，预计2025年秋上市

AGON AG275UXM2评测：4K与高刷兼具，全能电竞显示器的典范

iPhone 17 Air新配色曝光：淡雅浅蓝，预计2025年秋上市

华为nova14新低价：256GB版仅2166元，通信影像全面升级

iPhone 17 Air新配色曝光：淡雅浅蓝，预计2025年秋上市

热门内容

本栏最新

中汽中心清华华为共话智能驾驶未来，余承东助力发布产业发展白皮书

嫦娥五号月背采样：解锁月球背面科研新篇章，探索宇宙奥秘

B站力推视频播客扶持计划，暑期豪掷10亿流量助创作者转型

情感反诈新风口：“捞女游戏”爆火引争议

华强北AI眼镜价格打到两位数商家：技术含量不高！

苹果AirPods全球热销！累计收入将突破1000亿美元

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.