滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

工厂考场上，多模态大模型识别螺丝型号究竟几分能及格？

时间：2026-04-21 11:26:58 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

当多模态大语言模型在聊天、写作、代码生成等领域展现惊人能力时，全球十余所顶尖高校的研究团队将目光投向了另一个截然不同的场景——工厂车间。他们构建了一套名为FORGE的评测基准，首次系统性地检验了GPT、Gemini、Kimi等18个主流模型在制造业场景中的真实表现。这项研究以预印本形式公开后，立即引发了工业界与学术界的广泛关注。

传统工厂质检依赖人工目检或基础机器视觉系统，但这些方法存在明显局限。经验丰富的工人可能误判微小缺陷，而现有AI系统虽能识别零件位置与表面裂纹，却无法理解"M10螺栓与M16螺母为何不匹配"这类复杂逻辑。研究团队通过构建包含14类90个型号的585个真实零件数据集，设计了零件核验、缺陷检测、装配验证三类核心任务，覆盖图像与3D点云双模态，创建了目前制造业领域最全面的多模态评测体系。

在零件核验任务中，模型需从混合批次中识别出型号错误的零件。表面缺陷检测要求区分裂纹、切痕等四种微观缺陷类型。装配验证则是最复杂的挑战，例如金属膨胀螺栓组件需包含螺栓、螺母、平垫圈等五个部件，模型需找出多出的弹簧垫圈或型号错误的平垫圈。这些任务设置了零样本、参考条件、上下文示范三种难度模式，全面评估模型在不同条件下的表现。

评测结果显示，闭源模型整体优于开源模型，Gemini-3-Flash与GPT-5系列在多数任务中领先。但令人意外的是，所有模型在表面缺陷检测任务中集体"折戟"，准确率普遍低于50%，部分模型接近随机猜测水平。研究指出，宏观外形识别与微观形态感知属于完全不同的能力维度，当前模型在裂纹识别等精细任务上仍存在根本性缺陷。

更反直觉的发现出现在参考条件设置中。当提供标准零件图片作为参考时，许多模型在三视图点云任务中的准确率不升反降，部分模型下降幅度超过10个百分点。研究解释称，三视图投影导致的视角差异使模型陷入空间匹配困惑，这种干扰在需要精确型号判断的任务中相对较弱，但在零件类型识别任务中尤为显著。

通过三项专项实验，研究团队定位了模型失败的关键原因。视觉定位测试显示，顶尖模型能以97.6%以上的准确率识别零件坐标位置，证明"看不清"并非主要瓶颈。零件功能知识测试中，模型能判断组件缺失情况，却常混淆平垫圈与弹簧垫圈这类外形相似但功能迥异的零件。当将3D点云转换为纯文本坐标数据后，模型在缺陷检测任务中表现几乎归零，凸显了视觉渲染对制造业数据处理的重要性。

错误案例分析揭示了意外价值。某模型在金属膨胀螺栓任务中误判平垫圈材质为塑料，但其推理过程显示出自主推断材质并评估装配合规性的潜力。另一模型在数控夹具场景中错误识别型号的同时，准确指出了多个零件的磨损痕迹，这种"顺带"识别的服役状态感知能力，恰好契合工厂预测性维护需求。

研究最引人注目的发现来自模型微调实验。使用FORGE数据集对30亿参数的Qwen2.5-VL-3B进行专业训练后，该模型在零件核验任务中的准确率从28.2%跃升至53.8%，达到参数量是其78倍的Qwen3-VL-235B同等水平。在装配验证任务中，微调后的小模型表现超越多个主流大模型，仅次于Gemini-3-Flash与GPT-5.2。这证明通过专业领域数据定向优化，小规模模型也能在特定工业场景中实现高效落地。

当前研究仍存在局限性。评测数据集的零件种类与真实工厂相比仍显不足，极端光照、遮挡等实际生产条件下的表现有待验证。三视图渲染作为3D数据的简化处理方式，虽具有实用性但非终极方案。研究团队强调，制造业AI的发展需要构建更大规模、更高精度的专业数据集，并探索更适合工业场景的模型架构与训练方法。

更多>同类资讯

未来科学大奖十周年特展开幕！顶尖科学家共话AI时代人类原始创新价值

07-12

努比亚豆包手机2代来袭！AI智能体新突破，炫酷外观现货开售引期待

对于去年的豆包手机大家应该印象很深刻，其全自动化的操作颠覆了传统手机的交互模式，可惜后来被主流APP大厂联合封杀了，加上本身也是测试版，系统和硬件上均有不完善的方面，还有货源极少，黄牛炒作，价格昂贵等等因素…

07-12

探访海尔外骨骼机器人广州门店：AI加持下体验升级，普及仍待价格破局

不过就小雷的体验来说，16 牛米的扭矩对正常体重的亚洲用户来说其实完全足够了；即使是体重二百斤的小雷，在海尔 W3（三档）的帮助下也能「健步如飞」地跑步上楼梯：过程中能感受到外骨骼机器人正在发力帮我抬起大腿…

07-12

第六届金陵律师论坛南京启幕共探AI赋能法律服务新路径

07-12

广汽冯兴亚：AI重构汽车产业，技术突破需紧扣用户真实需求

07-12

人形机器人首入手术室为活猪“操刀”，但离真正自主手术尚有距离

这一研究也被称为是全球首例使用人形机器人完成的活体手术。为了保证一致性，由同一位资深外科医生在机器人控制台使用人形机器人平台完成所有手术，助手则由另一位资深外科医生或有腹腔镜手术经验的临床研究员担任，负责控…

07-12

产品助理转型AI产品经理攻略：从知识储备到实战履历的完整进阶路径

1. 重点展示需求梳理、文档落地、项目统筹、多方沟通能力，这是技术转产品人群欠缺的优势；借助AIPM认证补齐标准化知识短板，在职积累真实AI项目经验，搭配完整作品集，就能顺利完成岗位升级，抓住AI赛道高薪…

07-12

2026世界智能安全大会长春启幕共探AI时代自动驾驶安全新路径

07-12

网友脑洞大开，AI客服竟被“玩坏”成“野生豆包”算力薅手

07-12

宇树科技王兴兴：当下机器人就像30年前的个人电脑，不再是小众科技玩具

07-12

智谱股价大跌后创始人发内部信：未来两年聚焦AGI，启动摸高计划

07-12

德系底蕴邂逅本土创新大众安徽与众09申报亮相引领B级纯电轿跑新风潮

07-11

OpenAI新突破：GPT - 5.6 Sol化身“自动化研究员” 后训练Luna模型成效显著

IT之家 7 月 11 日消息，科技媒体 The Decoder 昨日（7 月 10 日）发布博文，报道称 GPT-5.6 Sol可自主后训练较小的 Luna 模型，并在聚合 RSI 指数上比 GPT-5.…

07-11

HBM4价格2027年或迎翻倍潮三大厂商产能锁定内存供应格局生变

快科技7月11日消息，近日，DigiTimes最新报告援引业内人士观点称，受AI算力需求爆发、产能结构性紧缺双重因素影响，高带宽内存HBM价格预计2027年实现翻倍。业内消息显示，2026年下半年HBM4单…

07-11

探访海尔外骨骼机器人门店：AI加持体验升级，普及之路价格成关键

不过就小雷的体验来说，16 牛米的扭矩对正常体重的亚洲用户来说其实完全足够了；即使是体重二百斤的小雷，在海尔 W3（三档）的帮助下也能「健步如飞」地跑步上楼梯：过程中能感受到外骨骼机器人正在发力帮我抬起大腿…

07-11

点击查看更多 +

全站最新

一汽-大众ID.AURA T6内饰首秀：女王副驾、大空间，开启出行新体验

燃油车新选择？星瑞L PLUS凭设计动力能否在新能源时代站稳脚跟？

精工智能IWMS5平台与CodeX协作实录：多项目开发效率提升与经验沉淀

比亚迪领衔三大品牌亮相古德伍德速度节，腾势Z等车型展现中国汽车硬核实力

古德伍德速度节上腾势Z全球首发，三版本齐发，中国超跑开启欧洲新篇

混动SUV选购指南：10-30万价位段，高配置车型如何精准匹配家庭需求？

热门内容

本栏最新

2026世界智能安全大会长春启幕共探AI时代自动驾驶安全新路径

德系底蕴邂逅本土创新大众安徽与众09申报亮相引领B级纯电轿跑新风潮

广汽资本跨界入局商业航天星河动力火箭研发与车企科技版图双拓展

纳米01智趣版跨界潮玩IP Nanci上市东风奕派加速拥抱年轻消费群体

蔚来ES8五座版上市！乘储分离设计+多元场景适配，空间豪华再升级

吉利星瑞L PLUS全球首秀揽双奖！东方美学设计，宽体旗舰家轿实力出圈

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.