在八月的世界机器人大会上,宇树科技的创始人王兴兴发表了一席引发行业热议的言论。他指出,当前阻碍机器人大规模应用的关键不在于硬件的欠缺,而在于模型层面的挑战。王兴兴特别提到,相较于VLA,现有的视频生成模型路径可能拥有更高的收敛概率。
无独有偶,灵生科技在同一时期宣布了一项重大突破:推出业内首个支持异步运行快慢双系统的视觉语言动作框架RealDualVLA,为复杂操作任务提供了全新的高效协同解决方案。这一方案背后的核心技术,是灵生科技独创的视频生成模型——“具身Sora”。
灵生科技由杨洪兵创立,这位在互联网大厂拥有多年AI算法和产业经验的专家,于2023年创办了这家专注于具身智能机器人大脑研发的公司。其核心产品为云-边-端一体化大脑系统LingBrain,该系统已获得了数千万的融资。
杨洪兵认为,具身智能的真正变革在于赋予机器人一个能够独立思考和行动的“大脑”。而这个“大脑”的进化,离不开开源所带来的生态繁荣。灵生科技不仅开源了自研的VLA模型,还提出了一种创新的训练方法:通过生成视频和“跟我学”的方式,让机器人先在脑海中“推演”操作流程,再去执行任务,从而显著提升任务成功率至95%以上。
杨洪兵强调,真正的机器人不应是遥控玩具或实验室样品,而是能够理解语言、感知物理世界、完成复杂任务的“生产力伙伴”。近日,杨洪兵接受了专访,就机器人大脑开源、具身Sora、产业化路径以及面临的挑战等话题进行了深入交流。
在访谈中,杨洪兵详细解释了机器人大脑的最大特点。与主要用于对话的语言模型不同,机器人大模型的目标是让机器人“干活”。这要求大模型不仅要理解语言,还要理解物理世界,如光照、摩擦、三维空间等,并将这些理解转化为具体动作。
谈及为何选择做大脑而非本体时,杨洪兵表示,他深信机器人智能的未来一定以AI为核心。如果只聚焦硬件,那只是传统制造业,而真正的具身“智能”需要AI来驱动。这也是灵生科技专注于研发“机器人大脑”的原因。
杨洪兵指出,目前许多机器人仍依赖遥控操作,更像“遥控玩具”而非智能设备。灵生科技希望通过大脑技术的突破,让机器人能够自主完成任务。他透露,公司虽成立仅半年多,但已凭借机器人大脑技术与多家大型客户建立了合作关系。
关于开源VLA模型的决策,杨洪兵表示,早期大模型领域多为闭源竞争,缺乏开放合作。灵生科技希望通过开源高质量模型,成为机器人领域的“鲶鱼”,推动行业进步。他认为,开源不仅能加速技术迭代,还能让整个生态更加繁荣。
面对数据匮乏这一制约机器人大脑发展的关键问题,杨洪兵介绍了灵生科技的解决方案:通过视频生成技术弥补数据不足。他们生成大量行为视频,让机器人从中学习,解决了数据瓶颈。灵生科技还提出了“推演”技术,让机器人先模拟学习,再执行任务,从而大幅提升效率和成功率。
在谈到竞争壁垒时,杨洪兵表示,虽然“推演”技术看似简单,但实际操作非常复杂。生成视频时需考虑多种物理因素,对技术要求极高。灵生科技是最早看到这一价值并持续投入的团队,持续的模型迭代和资源聚焦是他们保持优势的关键。
对于大厂是否会抢占机器人大脑赛道的问题,杨洪兵认为,大厂擅长通用AI,但要适配多样化的本体并深入产业场景,需要软硬件结合的垂直能力。灵生科技聚焦于“懂AI、懂本体、懂产业”的结合点,这正是他们的差异化优势。
在谈到如何通过开源模型实现盈利时,杨洪兵介绍了灵生科技的商业模式:基于开放平台提供增值服务。对于开源模型,如果客户需要进一步优化或定制,他们会提供收费的技术支持。与本体厂商合作时,通过增值服务收费;与终端客户合作时,则直接通过赋能大脑技术来收费。
杨洪兵还分享了与大公司合作的进展和具体案例,如与富士康集团、某国际3C巨头以及半导体领域头部上市公司的合作。他表示,灵生科技通过极致的产品力和多次实地考察,赢得了大客户的信任。
在产业化过程中,灵生科技遇到了真实产业环境复杂、数据不足以及关注失败次数控制等难点。他们通过工程化和体系化能力提升、利用具身Sora视频生成技术以及优化模型推理速度、效率和准确率等方式,克服了这些挑战。
对于机器人本体公司自研大脑的尝试,杨洪兵认为,这种“撒胡椒面”式的投入往往导致每个领域都不够突出。专注和极致化才是核心竞争力。灵生科技选择开源开放策略,消除了本体公司的顾虑,并吸引了众多厂商使用他们的模型。
在访谈的最后,杨洪兵表示,灵生科技将继续服务好头部客户,推动开源战略,吸引更多开发者基于他们的模型进行二次开发。他们的目标是实现自然语言处理通用接口(NLI),让用户只需用日常语言下达指令,机器人就能理解并执行。