ITBear旗下自媒体矩阵:

BabyVision评测集发布:主流多模态大模型视觉能力竟不及三岁幼儿?

   时间:2026-01-12 19:16:07 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

近日,红杉中国旗下评测体系xbench携手UniPat AI团队,共同推出了一项针对多模态大模型视觉能力的全新评测集——BabyVision。该评测集专注于评估大模型在纯视觉场景下的基础能力,不依赖语言提示,力求准确衡量模型对视觉信息的理解和处理水平。

BabyVision评测集将视觉能力细分为四大类别,包括精细辨别、视觉追踪、空间感知以及视觉模式识别。评测内容涵盖22项子任务,总计388道题目。为确保评测的公正性和准确性,测试过程中严格控制语言依赖,确保题目信息无法被完整转化为文本,从而真实反映模型的视觉理解能力。

在评测中,研究团队引入了人类基线作为对比。16位具备本科及以上学历的测试者完成了全部388道题目,结果显示人类准确率高达94.1%。这一数据为后续模型评测提供了有力的参照标准。

与人类表现形成鲜明对比的是,当前主流多模态大模型在BabyVision评测中的表现并不理想。其中,表现最佳的闭源模型Gemini3-Pro-Preview准确率为49.7%,GPT-5.2为34.8%,国内模型Doubao-1.8为30.2%,而开源模型Qwen3VL-235B-Thinking的准确率仅为22.2%。多数模型的得分显著低于3岁儿童的平均水平,凸显出当前大模型在视觉基础能力方面的不足。

研究团队指出,视觉信息中存在大量难以用语言准确描述的内容。一旦这些信息被压缩为语言描述,往往会丢失关键细节,导致模型在需要连续追踪、空间想象和几何归纳等任务中表现不佳。为应对这一问题,团队还推出了生成式评测版本BabyVision-Gen,要求模型通过画图、标注等视觉方式作答。

在生成式评测中,模型在视觉追踪、精细辨别等任务上展现出“更像人类”的行为,例如会尝试绘制轨迹或进行标注。然而,尽管模型在这些任务上表现出一定的进步,但整体仍缺乏稳定达到完全正确解的能力。这一发现进一步印证了当前大模型在视觉基础能力方面的局限性。

BabyVision评测集的发布为多模态大模型和具身智能的发展提供了宝贵的评估工具。通过这一工具,研究人员能够更准确地诊断模型在视觉能力方面的短板,为后续的技术改进和优化提供方向。当前,视觉基础能力仍是AI迈向通用智能过程中需要突破的关键瓶颈。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version