ITBear旗下自媒体矩阵:

工厂考场上,多模态大模型识别螺丝型号究竟几分能及格?

   时间:2026-04-21 11:26:58 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

当多模态大语言模型在聊天、写作、代码生成等领域展现惊人能力时,全球十余所顶尖高校的研究团队将目光投向了另一个截然不同的场景——工厂车间。他们构建了一套名为FORGE的评测基准,首次系统性地检验了GPT、Gemini、Kimi等18个主流模型在制造业场景中的真实表现。这项研究以预印本形式公开后,立即引发了工业界与学术界的广泛关注。

传统工厂质检依赖人工目检或基础机器视觉系统,但这些方法存在明显局限。经验丰富的工人可能误判微小缺陷,而现有AI系统虽能识别零件位置与表面裂纹,却无法理解"M10螺栓与M16螺母为何不匹配"这类复杂逻辑。研究团队通过构建包含14类90个型号的585个真实零件数据集,设计了零件核验、缺陷检测、装配验证三类核心任务,覆盖图像与3D点云双模态,创建了目前制造业领域最全面的多模态评测体系。

在零件核验任务中,模型需从混合批次中识别出型号错误的零件。表面缺陷检测要求区分裂纹、切痕等四种微观缺陷类型。装配验证则是最复杂的挑战,例如金属膨胀螺栓组件需包含螺栓、螺母、平垫圈等五个部件,模型需找出多出的弹簧垫圈或型号错误的平垫圈。这些任务设置了零样本、参考条件、上下文示范三种难度模式,全面评估模型在不同条件下的表现。

评测结果显示,闭源模型整体优于开源模型,Gemini-3-Flash与GPT-5系列在多数任务中领先。但令人意外的是,所有模型在表面缺陷检测任务中集体"折戟",准确率普遍低于50%,部分模型接近随机猜测水平。研究指出,宏观外形识别与微观形态感知属于完全不同的能力维度,当前模型在裂纹识别等精细任务上仍存在根本性缺陷。

更反直觉的发现出现在参考条件设置中。当提供标准零件图片作为参考时,许多模型在三视图点云任务中的准确率不升反降,部分模型下降幅度超过10个百分点。研究解释称,三视图投影导致的视角差异使模型陷入空间匹配困惑,这种干扰在需要精确型号判断的任务中相对较弱,但在零件类型识别任务中尤为显著。

通过三项专项实验,研究团队定位了模型失败的关键原因。视觉定位测试显示,顶尖模型能以97.6%以上的准确率识别零件坐标位置,证明"看不清"并非主要瓶颈。零件功能知识测试中,模型能判断组件缺失情况,却常混淆平垫圈与弹簧垫圈这类外形相似但功能迥异的零件。当将3D点云转换为纯文本坐标数据后,模型在缺陷检测任务中表现几乎归零,凸显了视觉渲染对制造业数据处理的重要性。

错误案例分析揭示了意外价值。某模型在金属膨胀螺栓任务中误判平垫圈材质为塑料,但其推理过程显示出自主推断材质并评估装配合规性的潜力。另一模型在数控夹具场景中错误识别型号的同时,准确指出了多个零件的磨损痕迹,这种"顺带"识别的服役状态感知能力,恰好契合工厂预测性维护需求。

研究最引人注目的发现来自模型微调实验。使用FORGE数据集对30亿参数的Qwen2.5-VL-3B进行专业训练后,该模型在零件核验任务中的准确率从28.2%跃升至53.8%,达到参数量是其78倍的Qwen3-VL-235B同等水平。在装配验证任务中,微调后的小模型表现超越多个主流大模型,仅次于Gemini-3-Flash与GPT-5.2。这证明通过专业领域数据定向优化,小规模模型也能在特定工业场景中实现高效落地。

当前研究仍存在局限性。评测数据集的零件种类与真实工厂相比仍显不足,极端光照、遮挡等实际生产条件下的表现有待验证。三视图渲染作为3D数据的简化处理方式,虽具有实用性但非终极方案。研究团队强调,制造业AI的发展需要构建更大规模、更高精度的专业数据集,并探索更适合工业场景的模型架构与训练方法。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version