在具身智能技术加速突破的当下,行业长期面临的生态碎片化问题正成为制约发展的关键瓶颈。作为机器人感知-决策-执行的核心技术路径,视觉-语言-动作(VLA)模型的研究因开发工具链割裂而陷入困境。不同研究机构采用差异化深度学习框架、模型架构和训练流程,导致算法复现困难、工程协作低效,研究者常需耗费大量时间配置多套实验环境,模型性能的公平性与可重复性遭受质疑。
更具挑战性的是,当前主流VLA策略仍依赖过时的模型架构。以OpenVLA及其衍生模型CogACT、OFT为例,其底层均基于Llama2架构,未能充分利用Qwen3等新一代模型更强的表征能力。这种技术代差导致行业看似创新不断,实则仍在旧技术框架内循环,学术研究与工程落地的重复建设成为具身智能规模化发展的隐形障碍。
针对上述痛点,Dexmal原力灵机团队推出开源VLA工具箱Dexbotic,构建了基于PyTorch框架的标准化科研基础设施。该工具箱通过"统一架构+高性能预训练模型+实验脚本化"的创新设计,实现了多策略复现、跨机器人数据整合与开发流程自动化三大突破。开发者仅需一次环境配置,即可在统一代码库中复现π0、OFT、CogACT等主流算法,模型性能比较与算法迭代效率显著提升。
在数据标准化层面,Dexbotic开发的Dexdata格式为UR5、Franka等主流机器人建立了统一数据规范。该格式将视频与文本信息分别存储于.mp4文件与JSONL目录,通过index_cache.json元数据文件实现高效数据访问。相比传统格式,Dexdata在数据加载与训练阶段可节省最高40%的存储空间,其可扩展架构已支持8种单臂机器人与3种双臂机器人的数据复用,未来将持续扩展适配范围。
预训练模型方面,Dexbotic提供离散型与连续型双版本基座模型。Dexbotic-Base采用CLIP视觉编码器与Qwen2.5语言模型架构,融合Open-X Embodiment、RLBench等多源仿真数据与真实机械臂数据,支持π0、MemoryVLA等离散动作策略的微调开发。针对连续动作场景的Dexbotic-CogACT则提供单臂/双臂版本,双臂模型整合了8种真实机器人的52个任务数据与ALOHA双臂数据集,支持多视角输入与复杂操作任务。
实证测试显示,Dexbotic在多个主流仿真基准中表现优异。在SimplerEnv的"堆叠方块"等任务中,CogACT策略性能提升18.2%,DB-OFT版本提升达46.2%;CALVIN长时序任务里,DB-CogACT平均任务长度较原版增加0.81;ManiSkill2抓取任务中,DB-OFT成功率提升42%。真实机器人实验中,UR5e等平台完成餐盘摆放、按钮按压等任务的成功率达80%-100%,但在纸张撕碎等精细操作中仍存在改进空间。
硬件生态建设方面,团队同步推出开源机器人平台DOS-W1。该平台采用全开源设计方案,公开文档、BOM清单与设计图纸,通过快拆结构与模块化设计降低使用与维护成本。其人体工学设计提升操作舒适度,支持高效数据采集,未来将通过产业链共创扩展功能模块,构建开放硬件生态。
为推动技术落地,Dexbotic与RoboChallenge平台达成合作,提供基于主流机器人的远程真机实验与标准化测试环境。开发者可将基于Dexbotic开发的策略提交至该平台,通过Table30桌面操作基准测试集进行性能验证。团队计划持续扩展预训练模型库,集成仿真到真实世界的迁移学习工具链,并建立社区驱动的模型贡献机制,邀请全球开发者参与生态共建。











