近年来,AI聊天机器人的进化速度惊人,它们逐渐渗透到个人助理、客户服务乃至心理健康治疗等多个领域。这一变革的背后,是大语言模型(LLM)的强大支撑,该模型通过机器学习算法,对互联网上的海量数据进行深度学习和分析。
科技界部分声音预测,未来几年内,借助机器学习算法,各类机器人将如雨后春笋般涌现,包括执行精密手术的外科机器人、替代工厂流水线的工业机器人,以及家庭生活中的智能管家机器人等。然而,加州大学伯克利分校的机器人专家肯·戈德伯格对此持谨慎态度。
戈德伯格近期在《Science Robotics》期刊上发表了两篇重量级论文,深入剖析了人形机器人在真实世界中应用技能的局限性。他指出,与AI聊天机器人相比,人形机器人在技能获取上的速度要慢得多,核心问题在于可供其训练的数据严重不足,与AI聊天机器人所依赖的数据量相比,差距甚至达到了10万年之久。
在另一篇论文中,来自麻省理工学院、佐治亚理工学院和苏黎世联邦理工学院的专家们就机器人的未来发展路径展开了激烈讨论。他们争论的焦点在于:是应该继续采集更多数据以训练人形机器人,还是应该回归传统工程方法,通过编程使机器人能够完成现实任务。
针对这一话题,加州大学新闻网站对戈德伯格进行了专访。对于马斯克等人关于人形机器人将在未来五年内超越人类外科医生的预测,戈德伯格表示,虽然机器人技术确实在快速发展,但目前仍远未达到这一水平。他认为当前的宣传热潮存在过度炒作的成分,夸大了机器人的实际能力。
戈德伯格进一步指出,尽管ChatGPT在视觉和语言领域取得了显著成就,但公众对于机器人技术的认知仍存在误区。许多人认为既然问题已经被解决,那么突破就在眼前,但实际上这过于乐观。他强调,马斯克所描绘的未来并非不可能实现,但至少在接下来的几年甚至十年内还无法达成。
当被问及人形机器人在手术或私人管家等角色上可能遇到的限制和困难时,戈德伯格表示,最大的难点在于灵活性。例如,让人形机器人拿起一个杯子或更换灯泡等看似简单的动作,实际上对机器人来说却异常困难。他提到了Moravec悖论,即人类认为轻而易举的事情,机器人却难以完成。以拿杯子为例,机器人需要对杯子的空间位置进行精确感知,并将手指移动到准确位置以适当方式捏住,这一过程的难度远超过人类想象。
关于数据缺口的问题,戈德伯格解释说,他用互联网上的文本数据量来计算一个人需要多长时间才能阅读完这些数据,结果得出的答案是10万年。而我们正是用这些庞大的数据来训练LLM。然而,对于机器人来说,这些数据却远远不够。训练机器人需要更复杂的数据和更多的样本量。尽管有人提出通过观察人类相关视频来获取数据的方法,但戈德伯格认为这种方法无法获取到动作细节,且从2D转化为3D也极具挑战。
戈德伯格还提到了另一种获取数据的方法,即通过让机器人运动来收集模拟数据。然而,这种方法在特定情况下虽然有效,但就灵活性而言仍然远远不够。他提到了一种远程操作机器人的方法,类似于操纵木偶一样完成各种任务,但这种方法对于人类来说十分枯燥,且要获得足够的数据量需要漫长的时间。
对于人形机器人的未来发展路径,戈德伯格认为目前机器人技术正处于范式转变的阶段。行业内部存在两种截然不同的观点:一派认为人形机器人的发展依赖于优秀的工程学技术,如物理学、数学和环境建模等;另一派则认为只要有足够的数据,机器人就能走向完美。戈德伯格更倾向于前者,他认为工程、数学和科学仍然是推动机器人发展的关键。
他提到了一些成功案例,如谷歌的Waymo无人驾驶汽车和Ambi包裹分拣机器人等。这些机器人都是在真实环境中运行,并持续收集数据以进行迭代升级。戈德伯格认为,这是推动人形机器人发展的可行路径。