ITBear旗下自媒体矩阵:

百度开源3B轻量级多模态模型,图文视频复杂任务轻松应对

   时间:2025-11-12 03:11:56 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

百度今日宣布,正式开源其新一代多模态思考模型ERNIE-4.5-VL-28B-A3B-Thinking。这款轻量级模型仅激活3B参数,却在视觉语言理解、跨模态推理及工具调用等关键领域实现突破性进展,多项基准测试成绩接近当前行业顶尖水平。

该模型基于ERNIE-4.5-VL-28B-A3B架构优化,通过引入海量高质量视觉语言数据训练,显著提升了文本与视觉模态间的语义对齐能力。研发团队采用GSPO与IcePop策略稳定混合专家结构(MoE),配合动态难度采样机制,使模型在保持轻量化的同时具备高效学习能力。大规模多模态强化学习技术的运用,进一步优化了任务执行效果。

核心创新之一是"图像思考"交互机制的引入。用户可在图像上自由缩放焦点区域,结合图像搜索等工具快速获取关联信息。这项能力特别适用于处理长尾视觉知识、细节识别等复杂场景。例如在公共交通图表分析中,模型能准确识别不同时段的客流高峰,并推理出最优出行方案。

模型的空间定位能力获得显著增强。通过优化指令遵循机制与定位触发逻辑,用户可更精准地控制视觉定位功能,实现从语义描述到图像坐标的直接转换。在STEM学科解题场景中,模型能识别上传的电路图结构,精确计算等效电阻值。

工具调用系统实现智能化升级。模型可根据图像环境动态决策是否调用外部工具,形成高效的信息获取链条。在视觉定位任务中,模型能识别并标注穿西装戴礼帽的人物位置,通过边界框可视化输出定位结果。配合"图像思考"能力,模型还可聚焦图像细节区域,识别隐藏的IP角色特征后自动调用搜索工具补充信息。

视频理解领域同样展现突破。模型具备分析广告视频内容变化的能力,可精准定位不同时段的内容切换点,辅助关键片段提取与结构化分析。这些能力组合使模型能完成从简单图像解析到复杂视频分析的全链条任务。

测试数据显示,该模型在图表解析、学科解题、人物定位、视频分析等场景中均保持高完成度。其轻量化设计(仅3B激活参数)与多场景适应性,为开发者构建具备感知与执行能力的多模态智能体提供了全新选择。随着工具链的持续完善,这类模型有望在真实环境中承担更多感知判断与交互任务。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version