在北京海淀东升科技园的一隅,北京中科慧灵机器人技术有限公司(简称“灵宝机器人”)正悄然引领一场机器人技术的革新。这里,一群科研极客正围绕具身智能技术展开激烈竞逐,致力于让机器人变得更加“心灵手巧”。
走进灵宝机器人的研发现场,仿佛踏入了一个半实验半生产的混合空间。错综复杂的轨道交织于顶棚,各式各样的操作台散落其间,让人不禁侧身、抬脚,以避开密布的设备。
灵宝机器人,这家成立于2023年的新兴企业,由中科院自动化所研究员张正涛创立,专注于研发面向实际应用的通用人形机器人及具身智能产品。具身操作,作为其核心专长之一,已能让机器人使用0.3毫米的螺丝刀精准装配笔记本电脑主板,其精度甚至达到头发丝的1/5。
具身操作,意味着机器人需同时拥有感知与操作能力。而视觉语言动作模型(VLA),正是实现这一双重能力的关键。它融合了视觉感知、语言理解与动作控制,构建了一个“端到端”的决策系统,并展开“泛化学习”,如同动作版的大语言模型。
在繁忙的研发现场,具身算法工程师王思成正在操作一台末端执行器,利用视觉语言动作模型训练二指夹爪的机器人抓取动作。抓取,看似简单,实则蕴含着极高的技术要求。王思成解释,传统机器人抓取需先检测目标、再计算空间坐标、最后执行动作,流程固定。而人类抓取则更加直觉化,无需检测与计算。灵宝机器人的目标,正是赋予机器人这种能力。
通过“模仿学习”,机器人只需输入视觉图像,便能学习图像中与操作相关的要素,进而模仿、学习人类的抓取动作。尽管当前算法仍需大量数据支持,但王思成团队已不断改进算法,使机器人能在5到10条数据内学会抓取,较一般开源模型所需的三四十条数据大幅减少。
另一边,模仿学习算法工程师孙建涌正在用3D鼠标操作机器人进行抓取训练,以适应柔性化的制鞋流程。他介绍,鞋分左右、尺码多样,要在动态场景下完成抓、拿、放,需通过真机在线强化学习实现。如今,训练这样的机器人仅需1小时左右,且能自动调整抓取动作,极大降低了训练门槛。
而占据研发现场“C位”的人形机器人,更是灵宝机器人团队努力的结晶。它不仅搭载了五指仿生灵巧手,能执行双指旋拧、指间夹取等操作,还在今年北京人形机器人半程马拉松赛中表现出色,成为少数未摔倒的参赛选手之一。
五指仿生灵巧手,作为执行操作任务的关键部件,集成了触觉、力觉和视觉的多源感知系统,重量仅800克,额定负载却达5公斤。通过优化控制算法和动作规划,该灵巧手模拟了人手的灵活性,有效解决了精细化作业场景中的“灵巧”与“作业”难题。
灵宝机器人具身操作中心负责人周明才认为,具身智能虽已实现“形似”,但如何使其像人类那样感知和操作,仍是一个逐步发展的过程。特别是随着个性化需求增多,让具身智能更加柔性化,以兼容更多应用场景,已成为研发的重要目标。他强调,近年来国内具身智能发展迅速,产业链不断完善,为算法开发提供了坚实基础。
灵宝机器人对产学研融合有着深刻理解。周明才表示,公司会将最新研究成果应用于产品,同时,最新产品也将提供给学术界进行前沿研究,形成一个紧密互动、螺旋式上升的循环。