北京人形机器人创新中心日前宣布,其自主研发的具身智能视觉-语言模型Pelican-VL 1.0正式面向全球开源。这款覆盖7B与72B双参数规模的模型,凭借其卓越性能被业界认定为"全球最大规模开源具身多模态大模型",同时以显著优势领跑同类技术。
性能测试数据显示,Pelican-VL 1.0在核心指标上超越国际顶尖模型:较GPT-5同类架构提升15.79%,较Google Gemini系列提高19.25%,更全面领先通义千问、书生万象等国内先进模型。这种突破性表现源于其独特的训练范式——全球首创的DPPO(刻意训练)算法框架,通过模拟人类元认知学习机制,使模型在极低数据消耗下实现高效进化。
研发团队创新性地将强化学习与监督微调深度融合,构建出"观察-实践-纠错-提升"的闭环训练体系。该系统如同具备自我反思能力的学习者,在每个训练周期中自动识别知识盲区,通过生成针对性失败案例进行精准优化。这种类人学习模式使模型仅需20万条训练数据即可达成最优性能,数据利用效率较传统方法提升10至50倍。
支撑这项技术突破的是强大的计算基础设施。研究团队在由千余张A800 GPU组成的超算集群上完成模型训练,单次检查点消耗超5万GPU小时。通过对数十亿token级高质量元数据的深度挖掘,模型在基线性能上实现20.3%的提升,较同级别开源模型平均优势达10.6%。
在具身智能应用层面,Pelican-VL 1.0展现出革命性突破。其整合的多模态感知系统能精准解析视觉信息与语言指令,结合物理世界常识进行复杂时空推理。这种能力使机器人可在商业服务、工业作业、家庭场景等真实环境中,自主完成从环境感知到动作规划的全流程任务,为机器人全自主化发展奠定关键技术基础。
该模型的开源将产生深远行业影响。其提供的自适应学习机制与高效训练方案,不仅降低了具身智能的技术门槛,更为产业界提供了可复用的创新范式。通过开放核心代码与训练框架,研究团队期待推动中国在具身智能领域形成技术主导权,加速人工智能与实体经济的深度融合。











