ITBear旗下自媒体矩阵:

物理AI浪潮下世界模型成焦点,Momenta携技术优势率先冲刺IPO

   时间:2026-06-25 02:58:58 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

港股市场即将迎来一家备受瞩目的新上市公司——Momenta,这家公司被冠以“物理AI第一股”的称号。此前,外界普遍预期具身智能领域的创业公司会率先冲击这一地位,但最终Momenta抢先一步,成为首个在港股上市的物理AI相关企业。

Momenta原本以自动驾驶技术闻名,在智能辅助驾驶领域占据着市场份额第一的位置,成为众多跨国车企的共同选择,甚至在技术和商业层面能与华为平分秋色。如今,随着IPO进程的推进,Momenta展现出了更大的野心——进军物理AI领域。

在深入探讨Momenta的IPO之前,有必要先了解一个重要的背景概念——世界模型。当前,世界模型被视为物理AI的核心基座模型,是2025年以来AI领域最热门但也最混乱的概念之一。OpenAI的Sora被称为“世界模拟器”,Google DeepMind的Genie能让用户在生成的画面中自由活动,也被称作世界模型,机器人公司以及NVIDIA也都在围绕世界模型展开布局。尽管大家都使用“世界模型”这一术语,但各自的理解和侧重点却大相径庭。

目前,世界模型的主流技术路线主要有四类。生成式视频路线以OpenAI Sora和视频生成公司为代表,追求画面达到像素级的逼真效果;交互式世界路线以Google DeepMind Genie为代表,能够根据用户的操作实时生成可交互的环境;空间智能路线以李飞飞的World Labs为代表,将世界模型视为可生成、可互动的3D表示;联合嵌入预测(JEPA)路线则由Yann LeCun提出,主张在抽象表示层预测世界的下一步发展,以此作为智能体规划的基础,避免在像素层面消耗过多算力。

这四类技术路线虽然目标都是理解物理世界,但实现路径却截然不同。有的注重画面的美观,有的强调规则的正确性,有的追求三维结构的准确性,有的则专注于抽象预测。李飞飞曾发表长文,以“杯子放在桌上”为例解释世界模型的本质:真正理解世界的模型应该能够从任何角度渲染杯子,模拟杯子被推倒后的全部物理过程,还能规划如何用手拿起杯子,这三种能力共享同一套底层理解,也就是最关键的模拟器。而LeCun则走得更远,他否定了整个大语言模型范式,认为大语言模型本质上只是统计学的模式匹配器,只是在预测下一个单词,并不真正理解物理世界。这一观点引发了广泛关注,LeCun离开meta后创办的AI创业公司AMI Labs,在初期仅有12名员工的情况下,就获得了远超许多科技独角兽整个生命周期的融资。

尽管观点各异,但资本对世界模型这一路线的重视程度不言而喻。无论选择哪条技术路线,自动驾驶实际上都是世界模型最早的“试金石”和落地场景。世界模型的核心功能是根据行动者提出的想象动作序列,预测未来可能的世界状态,这与自动驾驶场景中车辆不断进行“动作→预测世界状态→再动作”的循环高度契合。因此,在世界模型被视为物理AI核心基座模型的背景下,自动驾驶被认为是激发物理AI“GPT时刻”的关键突破口。

两个月前,Momenta公布了其在世界模型领域的成果——R7世界模型实现量产,并首发搭载在上汽大众ID. ERA 9X车型上。对于消费者来说,搭载R7(车端经蒸馏后的模型)的量产车并非一张白纸,而是一个在众多复杂场景中历练过的“老司机”。Momenta依托搭载其系统的量产车,积累了超过120亿公里的真实行驶里程,并从中提炼出超1亿段“黄金数据”,实现了数据的规模化增长。这使得车辆在起步时就具备了较高的能力水平,能够应对各种复杂路况。同时,世界模型还突破了现实场景的限制,现实中可能数年甚至数万公里才遇到一次的危险情况,在R7的训练中可以反复演练,甚至可以通过改变边界条件进行“加练”。这种高上限的训练方式使得车辆在遇到真正的“地狱场景”时,能够比人类司机更合理、更平稳地通过复杂路段。据CIC灼识咨询数据显示,在2025年3月至2026年2月期间,中国第三方城市NOA供应商市场中,搭载Momenta系统的量产车销量市占率达到65%,位居行业首位,且交付速度极快,最快不到40天即可完成10万台交付。

从R7量产开始,Momenta CEO曹旭东将公司定位为“物理AI基座模型的构建者”,致力于打造能够理解物理规律、推演世界演变的通用世界模型。在技术层面,Momenta构建了R7世界模型的三层技术架构。第一层是世界模型预训练,通过海量真实驾驶数据,将物理规律、常识与因果关系压缩进模型,形成基础认知;第二层是世界模型仿真,系统利用生成模型推演周围环境的演变,对极端罕见的长尾场景进行闭环测试;第三层是在模型中开展强化学习,系统通过奖惩机制反复试错,在数千万次虚拟交互中推演。通过这三层架构的迭代,系统从“模仿学习”逐步走向“想象与探索”,在虚拟世界中经历千万次推演,自主习得在复杂博弈中做出最优决策的能力,使模型在罕见极端场景下的表现超越人类水平。

R7世界模型不仅超越了传统自动驾驶的范畴,它既不是单纯的车端实时模型,也不仅仅是传统意义上的基座大模型,而是被普遍认为是物理AI时代的基座模型。它具有多模态特性,不仅包含语言信息,还为AI走出屏幕、认知真实物理世界提供了基础。虽然现阶段能让物理AI的数据规模化和商业规模化形成正向反馈的最高价值场景是自动驾驶,但这并不意味着Momenta的定位仅限于自动驾驶领域。

在物理AI浪潮中,Momenta率先冲刺IPO。招股书显示,2023年至2025年,Momenta的营收从7.43亿元增长至24.13亿元,三年翻三倍,年均复合增长率超过80%。营收结构也发生了显著变化,技术开发收入增长至14.45亿元,而许可收入从0.23亿元激增至9.68亿元,三年翻了42倍。许可收入是Momenta授权车企使用其物理AI系统的收费模式,具有高边际收益属性,车辆销量越多、搭载其系统的车辆越多,收入就越高。这种收费模式被认为是自动驾驶创业公司最理想的营收模式,也是L4玩家追求多年却尚未完全实现的目标。这表明Momenta的商业模式正在从项目制向规模化许可收入转型,成为自动驾驶赛道中首个用经营数据和技术体系证明商业逻辑成立的玩家。

回顾Momenta的发展历程,会发现其具有独特的优势。它在发展过程中几乎没有进行过“伤筋动骨”的战略调整、转轨或挣扎。从创业初期,Momenta就提出了“一个飞轮,两条腿”的技术范式,并不断向资本、客户和用户强调这一理念。飞轮是数据驱动的核心机制,两条腿分别是L2级别的量产辅助驾驶和L4级别的完全自动驾驶。这两条腿共用同一套软件算法架构、同一套传感器方案和同一个世界模型。在实际运营中,超过90万台规模的L2量产车提供了海量的真实行驶数据和商业收入,支撑世界模型的持续迭代。迭代后的模型再部署到L4 Robotaxi上,实现更高阶的自动驾驶能力,目前已在中国上海、苏州、德国慕尼黑、阿联酋阿布扎比等城市落地。Robotaxi在运营中遇到的极端场景又反哺回模型训练,形成了一个良性循环。这种All-in-one platform的策略,复用量产车基础模型和大部分软硬件方案,其规模化速度理论上远快于从头开始搭建专用车队的路径。

从物理AI的角度来看,Momenta的技术体系和经营业绩使其成为新赛道上起步条件最好、前景最确定、负担最小的选手。它选择先在一个已经被验证有商业价值、有海量数据的垂直场景(自动驾驶)里,将世界模型的能力打磨到极致,再寻求能力的横向迁移。毕竟,在物理AI领域,目前还没有其他场景能提供像自动驾驶这样大规模的真实世界交互数据,无论是量产车上的有监督方案,还是Robotaxi的完全无人驾驶。

当然,Momenta的发展也面临着巨大的不确定性。自动驾驶技术体系能否以低成本迁移到机器人等其他物理AI终端上,目前尚无共识和成熟的方法论。甚至学术圈仍在争论“预测下一个物理状态”与“预测下一个token”在本质上是否是同一类问题。但无论如何,Momenta已经迈出了第一步,并且持续高强度地投入物理AI基座模型的研发。随着Momenta的上市,后续冲击物理AI概念IPO的玩家将面临新的价值评估体系:自动驾驶公司需要回答是否拥有多模态基座模型的问题,而直奔“物理AI终极大脑”的创业公司则必须面对“落地渠道、数据闭环”的拷问。Momenta的探索和实践,无疑为物理AI领域的发展提供了重要的参考和借鉴。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version