滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

德州扑克成机器人“考场”：北大等团队研发DexHoldem测试灵巧手实力

时间：2026-05-26 22:26:52 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

一场特殊的“人机对决”正在科研实验室展开——没有紧张的电子竞技画面，也没有复杂的数学推导，只有一张铺着绿绒布的德州扑克桌，机械臂在筹码与扑克牌间缓缓移动。由北京大学、上海科技大学等机构联合完成的研究，以扑克桌为考场，为机器人综合能力的评测搭建了全新框架。这项研究不仅让机器人“手脑并用”的挑战具象化，更通过1470条真实示范动作、四级评分体系与多维度测试，撕开了当前机器人技术发展的现实边界。

为何选择德州扑克作为测试场景？研究团队用“真实世界的缩影”来解释。工厂机械臂的重复性操作与科技展上智能机器人的简单交互，均无法同时满足“视觉理解”“决策判断”与“精细操作”三重需求。扑克桌上，0.3毫米厚的扑克牌、易倒的筹码堆叠、动态变化的桌面状态，构成了对机器人感知、决策与动作的连环考验。更关键的是，每一步操作都必须“克制”——若掀翻底牌或碰乱筹码，后续流程将直接中断。这种“破坏性后果”的连锁反应，正是真实场景中机器人面临的典型困境。

名为DexHoldem的系统是这场测试的核心。其硬件采用24自由度的Shadow Dexterous Hand机械手，搭配6自由度的UR10e机械臂，形成30维动作空间，远超普通工业夹爪的1-2自由度。为让机器人“看清”桌面，系统部署了三个摄像头：俯视摄像头捕捉全局牌筹位置，第三视角摄像头监控手臂与场景，手腕摄像头提供手眼协调的近距离信息。软件层面则采用“大脑-小脑”分工模式：具身智能体作为“大脑”解析游戏状态并决策，多任务动作策略模型作为“小脑”将指令转化为关节运动序列，路由逻辑则处理等待、重试或求助等意外情况。

训练数据是系统的“教科书”。研究团队通过遥控操作采集了1470条真实示范动作，覆盖14种基础操作，包括拾牌、推筹码、翻牌等。每条数据均经过质量筛选，失败尝试被剔除，确保示范的“成功性”。例如，“推50面值筹码”需满足筹码进入下注区且不碰乱其他筹码，“翻牌”需牌面朝上且位置准确。这些操作的成功标准被定义为“场景保留成功”——任务完成且桌面状态可支持后续操作，而非传统评测中仅关注目标是否达成。

四级评分体系是研究的创新点之一。传统评测仅区分“成功”与“失败”，而DexHoldem将结果细分为四级：最高级“场景保留成功”要求任务与桌面状态双达标；次级“破坏性完成”是任务达成但桌面混乱；再次级“任务失败”是未完成目标但桌面可重试；最低级“破坏性失败”则是任务与桌面均失控。这种设计暴露了机器人策略的“鲁莽性”——例如，某模型在推筹码任务中任务完成率达60%，但场景保留成功率仅25%，意味着其常通过“蛮力”达成目标却忽视环境影响。

9种策略模型在真实牌桌上接受了检验。大模型阵营中，π0.5以61.2%的任务完成率领先，但场景保留成功率降至47.5%，显示其操作稳定性不足；π0任务完成率稍低（57.5%），但破坏性完成更少，操作更谨慎。任务专精模型中，DP（DINO）凭借DINOv2视觉特征取得26.2%的场景保留成功率，优于其他专精模型，但仍与大模型存在差距。按操作类型分解，拾牌任务表现最佳，π0与π0.5均达100%场景保留成功率；推筹码与拉筹码任务则困难重重，最佳模型场景保留成功率仅25%与15%，翻牌任务中模型常因碰乱其他物件导致成功率大幅下降。

预训练数据的作用在实验中受到审视。研究团队以RDT模型为对象，对比“从零训练”与“基于夹爪预训练模型初始化”两种方式的性能差异。结果显示，在10%数据量时，预训练优势仅1.2%；即使使用全部数据，误差降低幅度也仅11.3%。两种初始化方式的学习曲线几乎平行，未出现预训练模型在少数据下“快速收敛”的现象。这表明，灵巧手操作的技能迁移性较弱，需大量专用数据才能实现效果提升，与自然语言处理领域预训练模型的“举一反三”能力形成鲜明对比。

感知模块的挑战同样显著。研究团队设计36道测试题，要求AI从图片中解析游戏状态，包括当前阶段、出手权、公共牌、筹码数量等8个字段。八种主流大模型中，Claude Opus 4.7以34.3%的严格全题匹配率领先，但仍有超三分之二题目存在错误；GPT 5.5的字段平均准确率最高（66.8%），但在“当前下注筹码”与“对手筹码”字段上准确率不足45%。筹码识别的困难源于多重因素：远端视角下筹码尺寸小、颜色相近、互相遮挡，且评分要求四种面值数量完全正确，差一枚即判错，严苛标准放大了感知误差。

完整系统的真实表现印证了“错误累积”效应。三段案例研究中，系统需经历22至54个“观察-决策-操作”循环，其中约三分之一状态用于等待桌面稳定或验证操作结果。例如，某局游戏中系统需连续执行六次拉筹码操作以收回赢款，每次操作间均插入等待间隔；另一局中，系统因筹码碰乱触发一次恢复重试，但全程未请求人类协助。研究团队指出，即使各组件隔离测试成功率尚可，组合后错误与延迟仍会随步骤增加而累积，凸显长程操作中系统鲁棒性的重要性。

这项研究的局限性同样明确。其基准建立于特定硬件配置，示范数据量（1470条）远低于大型预训练模型的训练规模，真实物理测试的成本与耗时也限制了案例研究的统计代表性。然而，其价值在于提出了一套标准化评测框架：将任务完成与环境保留分离计分，拆分感知、动作与系统流程为独立子基准，并公开遥控示范数据与评分规则。当前，最先进的策略模型仅能以47.5%的场景保留成功率完成基础操作，感知模块在筹码识别上的错误率超50%，这些数据为机器人技术发展划出了清晰的“能力边界线”。

更多>同类资讯

家用机器人Isaac 1发布：可叠衣、收拾房间等

07-03

蔚蓝优智科技烟台落地，优必选等携手布局智能机器人领域

07-03

深圳新成立可灵星图科技公司注册资本千万聚焦人工智能等领域

07-03

摩根大通报告：6月大模型调用量与GPU租赁价齐升 AI基建需求持续扩张

07-03

澜起科技：第二子代芯片出货提升今年将完成第三子代工程研发

07-03

宁波华翔回应机器人进展：P30量产应用安防搜救人形机器人尚在训练

07-03

对话智梦可杜宇：跨界自动驾驶，以AI动态控温开启睡眠科技新篇章

07-03

从太空到校园：桂海潮以“飞天经验”赋能科研创新与航天育人

07-03

桂海潮：从云南边陲到太空逐梦既摘星辰又为少年播撒航天希望

07-03

桂海潮：从边陲学子到太空逐梦人，用科研与科普点亮航天新希望

07-03

紫光同创首发国产自主产权亿门级FPGA 加速卡亮相填补高端芯片空白

07-03

北京出台方案：强化人形机器人赛事等场景建设推动高精尖产业产教融合

07-03

贾跃亭FF否认总部“人去楼空”传闻称已迁新址并拟定增2500万美元支持机器人业务

07-03

Robinhood CEO特内夫预测：AI智能体交易时代将至散户或享机构级工具

特内夫表示：“智能体交易（Agentic Trading）的核心概念，就是让智能体完成人类交易员的每一项工作”。他还透露，在创办Robinhood 之前，自己曾作为机构投资者从事程序化交易工作。 IT之家…

07-03

如身机器人获亿元Pre-A轮融资，以具身智能技术破解养老照护难题

在核心能力层面，该产品搭载七自由度20kg大负载力控柔顺机械臂，可在复杂机构与家庭环境中实现稳定操作与安全交互，并围绕养老场景构建自主任务能力体系，覆盖喂饭、递送、搬运、护理辅助等高频服务动作。如身机器人则…

07-03

点击查看更多 +

全站最新

MastaJi马思荅吉：以技术实力与服务优势，助力新疆智慧校园建设升级

河南智慧校园建设选哪家？MastaJi马思荅吉技术实力强服务优值得考虑

AI盗脸带货乱象频发，直播电商筑牢肖像保护防线守护信任基石

阿里巴巴国际站工业卖家：善用AI提升效率，以真实图片赢得海外买家信任

谷歌Gemini Omni Flash登顶Video Arena榜首，视频AI领域格局生变

京东11.11政企采购热潮涌动：3C商用设备多品类增长显著，品牌生态多元发展

热门内容

本栏最新

零跑B10新动作来袭！官宣新车色，配置亮点与价格信息一览

一汽丰田2027款格瑞维亚上市携手复星旅文打造家庭出行新体验

优必选“机器人伴侣”引热议：高售价订单火爆，是噱头还是新趋势？

2027款丰田格瑞维亚上市，配置升级二排体验提升，焕新权益价23.68万起

天工3.2升级Skywork Tags：Agent入群协作，开启团队共享AI新篇章

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.