ITBear旗下自媒体矩阵:

阿里开源多模态推理模型HumanOmniV2,助力AI深度理解视频中的“话外音”

   时间:2025-07-08 21:34:30 来源:智东西编辑:快讯团队 IP:北京 发表评论无障碍通道

近日,阿里巴巴旗下的通义实验室向公众推出了HumanOmniV2,这是一款全新的多模态推理模型,旨在深化AI对人类复杂意图和情感的理解。

HumanOmniV2通过引入一系列创新机制,实现了对图像、视频和音频等多模态信息的深度解析。该模型不仅能够捕捉到这些模态中的显性信息,更能挖掘出隐藏的细节,有效解决了多模态推理中常见的全局上下文理解不足和推理路径简单的问题。

例如,在面对一个视频提问“女人为什么翻白眼”时,HumanOmniV2不仅分析了视频中的画面,还结合了音频信息,给出了富有洞察力的答案:“她的翻白眼更像是对一个潜在敏感话题的夸张、俏皮的反应,而非对其他人表示不满。”这种结合多模态信息进行推理的能力,使模型的回答更加精准且贴近人类的理解。

HumanOmniV2的推出,得益于通义团队在模型训练和优化方面的深入研究。他们引入了强制上下文总结机制,确保模型在推理过程中始终基于全局上下文进行。同时,大模型驱动的多维度奖励体系,包括上下文奖励、格式奖励、准确性奖励和逻辑奖励,进一步提升了模型的推理能力和准确性。

通义团队还对GRPO算法进行了改进,引入了词元级损失、移除了问题级归一化项,并应用了动态KL散度机制。这些改进使得模型在训练过程中更加稳定,泛化能力更强。

为了评估HumanOmniV2的性能,通义团队还开发了一个全模态推理训练数据集和一个评测基准IntentBench。IntentBench包含了633个视频和2689个相关问题,旨在全面评估模型对人类复杂意图和情感的理解能力。

在IntentBench上的测试中,HumanOmniV2取得了令人瞩目的成绩,准确率达到69.33%。这一成绩不仅证明了模型在多模态推理方面的强大能力,也为AI在理解和建模人类复杂意图方面提供了新的参考。

HumanOmniV2的开源,标志着阿里巴巴在AI领域的又一次重要突破。这一模型的出现,将有望推动多模态推理技术的发展,为AI在更多领域的应用提供有力支持。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version