ITBear旗下自媒体矩阵:

德州扑克成机器人“考场”:北大等团队研发DexHoldem测试灵巧手实力

   时间:2026-05-26 22:26:52 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

一场特殊的“人机对决”正在科研实验室展开——没有紧张的电子竞技画面,也没有复杂的数学推导,只有一张铺着绿绒布的德州扑克桌,机械臂在筹码与扑克牌间缓缓移动。由北京大学、上海科技大学等机构联合完成的研究,以扑克桌为考场,为机器人综合能力的评测搭建了全新框架。这项研究不仅让机器人“手脑并用”的挑战具象化,更通过1470条真实示范动作、四级评分体系与多维度测试,撕开了当前机器人技术发展的现实边界。

为何选择德州扑克作为测试场景?研究团队用“真实世界的缩影”来解释。工厂机械臂的重复性操作与科技展上智能机器人的简单交互,均无法同时满足“视觉理解”“决策判断”与“精细操作”三重需求。扑克桌上,0.3毫米厚的扑克牌、易倒的筹码堆叠、动态变化的桌面状态,构成了对机器人感知、决策与动作的连环考验。更关键的是,每一步操作都必须“克制”——若掀翻底牌或碰乱筹码,后续流程将直接中断。这种“破坏性后果”的连锁反应,正是真实场景中机器人面临的典型困境。

名为DexHoldem的系统是这场测试的核心。其硬件采用24自由度的Shadow Dexterous Hand机械手,搭配6自由度的UR10e机械臂,形成30维动作空间,远超普通工业夹爪的1-2自由度。为让机器人“看清”桌面,系统部署了三个摄像头:俯视摄像头捕捉全局牌筹位置,第三视角摄像头监控手臂与场景,手腕摄像头提供手眼协调的近距离信息。软件层面则采用“大脑-小脑”分工模式:具身智能体作为“大脑”解析游戏状态并决策,多任务动作策略模型作为“小脑”将指令转化为关节运动序列,路由逻辑则处理等待、重试或求助等意外情况。

训练数据是系统的“教科书”。研究团队通过遥控操作采集了1470条真实示范动作,覆盖14种基础操作,包括拾牌、推筹码、翻牌等。每条数据均经过质量筛选,失败尝试被剔除,确保示范的“成功性”。例如,“推50面值筹码”需满足筹码进入下注区且不碰乱其他筹码,“翻牌”需牌面朝上且位置准确。这些操作的成功标准被定义为“场景保留成功”——任务完成且桌面状态可支持后续操作,而非传统评测中仅关注目标是否达成。

四级评分体系是研究的创新点之一。传统评测仅区分“成功”与“失败”,而DexHoldem将结果细分为四级:最高级“场景保留成功”要求任务与桌面状态双达标;次级“破坏性完成”是任务达成但桌面混乱;再次级“任务失败”是未完成目标但桌面可重试;最低级“破坏性失败”则是任务与桌面均失控。这种设计暴露了机器人策略的“鲁莽性”——例如,某模型在推筹码任务中任务完成率达60%,但场景保留成功率仅25%,意味着其常通过“蛮力”达成目标却忽视环境影响。

9种策略模型在真实牌桌上接受了检验。大模型阵营中,π0.5以61.2%的任务完成率领先,但场景保留成功率降至47.5%,显示其操作稳定性不足;π0任务完成率稍低(57.5%),但破坏性完成更少,操作更谨慎。任务专精模型中,DP(DINO)凭借DINOv2视觉特征取得26.2%的场景保留成功率,优于其他专精模型,但仍与大模型存在差距。按操作类型分解,拾牌任务表现最佳,π0与π0.5均达100%场景保留成功率;推筹码与拉筹码任务则困难重重,最佳模型场景保留成功率仅25%与15%,翻牌任务中模型常因碰乱其他物件导致成功率大幅下降。

预训练数据的作用在实验中受到审视。研究团队以RDT模型为对象,对比“从零训练”与“基于夹爪预训练模型初始化”两种方式的性能差异。结果显示,在10%数据量时,预训练优势仅1.2%;即使使用全部数据,误差降低幅度也仅11.3%。两种初始化方式的学习曲线几乎平行,未出现预训练模型在少数据下“快速收敛”的现象。这表明,灵巧手操作的技能迁移性较弱,需大量专用数据才能实现效果提升,与自然语言处理领域预训练模型的“举一反三”能力形成鲜明对比。

感知模块的挑战同样显著。研究团队设计36道测试题,要求AI从图片中解析游戏状态,包括当前阶段、出手权、公共牌、筹码数量等8个字段。八种主流大模型中,Claude Opus 4.7以34.3%的严格全题匹配率领先,但仍有超三分之二题目存在错误;GPT 5.5的字段平均准确率最高(66.8%),但在“当前下注筹码”与“对手筹码”字段上准确率不足45%。筹码识别的困难源于多重因素:远端视角下筹码尺寸小、颜色相近、互相遮挡,且评分要求四种面值数量完全正确,差一枚即判错,严苛标准放大了感知误差。

完整系统的真实表现印证了“错误累积”效应。三段案例研究中,系统需经历22至54个“观察-决策-操作”循环,其中约三分之一状态用于等待桌面稳定或验证操作结果。例如,某局游戏中系统需连续执行六次拉筹码操作以收回赢款,每次操作间均插入等待间隔;另一局中,系统因筹码碰乱触发一次恢复重试,但全程未请求人类协助。研究团队指出,即使各组件隔离测试成功率尚可,组合后错误与延迟仍会随步骤增加而累积,凸显长程操作中系统鲁棒性的重要性。

这项研究的局限性同样明确。其基准建立于特定硬件配置,示范数据量(1470条)远低于大型预训练模型的训练规模,真实物理测试的成本与耗时也限制了案例研究的统计代表性。然而,其价值在于提出了一套标准化评测框架:将任务完成与环境保留分离计分,拆分感知、动作与系统流程为独立子基准,并公开遥控示范数据与评分规则。当前,最先进的策略模型仅能以47.5%的场景保留成功率完成基础操作,感知模块在筹码识别上的错误率超50%,这些数据为机器人技术发展划出了清晰的“能力边界线”。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version