ITBear旗下自媒体矩阵:

商汤科技发布“悟能”具身智能平台,十年积淀引领多模态与具身智能融合

   时间:2025-07-27 21:22:13 来源:量子位编辑:快讯团队 IP:北京 发表评论无障碍通道
 

在WAIC 2025大模型论坛上,商汤科技正式迈入具身智能领域,推出了名为“悟能”的具身智能平台。此举标志着商汤科技在AI技术的新一轮布局中,迈出了重要一步。

商汤科技发布的日日新V6.5多模态推理大模型,成为此次论坛的一大亮点。该模型通过创新的图文交错思维链,实现了跨模态推理精度的显著提升。不同于传统多模态推理模型将图像转化为文本进行推理,日日新V6.5允许图像以本体形式参与推理过程,从而在多个数据集上的多媒体推理能力超越了业界领先的Gemini 2.5 Pro。

依托轻量Vision Encoder +和纵深LLM架构,日日新V6.5在性能上相较于6.0版本提升了6.99%,而推理成本仅为前者的30%,性价比提高了五倍。这一突破不仅提升了模型的能力,也为商汤在具身智能领域的落地提供了坚实的基础。

商汤科技联合创始人、执行董事、首席科学家林达华表示,多模态是实现通用人工智能(AGI)的关键路径。只有能够同时处理文本、视觉信息以及执行物理操作的AI,才能真正理解和改造物理环境。商汤在自动驾驶等领域的多年实践,积累了丰富的感知、定位、轨迹规划和安全冗余等方面的数据与经验,这些能力为机器人等具身形态的应用提供了有力支撑。

基于日日新多模态大模型和商汤在感知、定位等方面的积累,“悟能”具身智能平台应运而生。该平台一端承接日日新多模态大模型的通用能力,另一端则利用商汤在打造和使用世界模型进行训练的经验,构建生态体系。通过“悟能”平台,商汤将能够更高效地推动具身智能技术在不同场景中的应用。

“开悟”世界模型作为“悟能”平台的重要组成部分,包含了商汤积累的10万3D资产,支持多视角视频生成,并能保持时空一致性。这一模型不仅能够理解遮挡、前后层级等空间关系,还能理解时序和运动规律,使得物体在时间推移中保持自然连贯的变化。同时,“开悟”世界模型还支持参数化编辑,使得天气、光照、道路以及车辆等元素可以一键变换,为具身智能场景中的真实世界构建提供了有力支持。

在具身智能场景中,“悟能”平台能够同时处理人、物、场,构建4D的真实世界,并且这种世界同时包含了第一和第三视角。第一视角为机器人在真实运行时获取的感知流,决定了模型推理时的输入分布;而第三视角则能完整捕捉人类或机器人全身的姿态骨骼和环境关系,为动作意图、路径规划提供清晰标签。通过将两种视角对齐训练,“悟能”平台可以显著提高模型的泛化能力,加速具身智能的落地。

在具身智能的落地上,商汤选择了“软硬协同”的路线。目前,商汤已与多家人形机器人、物流搬运底盘厂商、家用陪伴平台等合作伙伴达成合作,将T模型预装进不同形态的机器人中,让这些硬件天生具备多模态感知和推理能力。未来,随着硬件销量的增加,回流的视觉、语音和操作数据也将更加丰富,进一步推动模型的迭代升级,形成正向的数据飞轮效应。

在论坛上,商汤还组织了一场关于具身智能行业发展的关键问题的圆桌讨论。讨论中,多位行业专家和学者就数据稀缺、模型路线取舍等问题进行了深入探讨。北京大学助理教授王鹤介绍了通过虚拟环境进行大量训练,再用少量真实样本进行校正的解决方案。商汤的“开悟”世界模型恰好能够承接这一过程中的大部分合成任务,与合作伙伴推出的超千万数量级的机器人则提供了关键的真实数据回流。

商汤联合创始人、执行董事、CTO王晓刚认为,仅有机器人本身摄像头的第一视角并不够,还需要上帝俯瞰的第三视角来补全肢体骨骼与全局语义。澳大利亚科学院院士陶大程也指出,第一视角需要叠加深度、惯性、力觉等多传感器流,才能完整地捕捉“感知—意图—行动”闭环。为此,商汤在世界模型中同步生成并标定第一和第三视角数据,确保时空一致,再映射回端侧传感器,以缩短仿真与现实之间的落差。

通过世界模型的大规模仿真、合作硬件的真实数据回流、第一与第三视角的融合标注,以及“通用大脑 + 场景闭环”的协同演进,商汤将数据、算法与硬件生态紧密连接在一起,形成了一条自循环链。这一链条将推动商汤在具身智能领域的快速发展,从工业到家庭,千万数量级的机器人将承载这颗强大的具身大脑,共同开启AI技术的新篇章。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version