ITBear旗下自媒体矩阵:

10个月估值冲上13.2亿美元,前商汤核心人物刘宇的多模态AI创业公司估值狂飙,红杉与IDG集体加注

   时间:2025-12-01 23:01:21 来源:Z Finance编辑:快讯 IP:北京 发表评论无障碍通道
 

如果不是刻意去翻学术主页,很多人可能到今天都还不知道:前商汤执行研究总监、AIGC 产品「秒画」幕后负责人刘宇,已经把自己的新公司,做到了一轮估值“超过 13.2 亿美元”的地步。

这一消息并不是出自什么高调的融资通稿,而是悄悄写在他个人主页的 News 一栏里:

2025 年 1 月创立了一家专注“实时交互多模态内容”的 AI 初创企业;同年 2 月完成种子轮,由红杉中国和 IDG 资本联合领投;8 月 Pre-A 估值突破 4 亿美元;11 月 A 轮估值 突破13.2亿美元。

换算一下,这家才刚满一岁的“tiny AI venture”,如今的身价已经站进全球视频模型创业公司第一梯队——和 Runway 最新一轮 30 亿美元估值、Luma 40 亿美元估值、Pika Labs 几亿美金区间的体量,处在同一个桌边对话。

更耐人寻味的是,这家公司如今估值已经迈过13.2 亿美元,但外界至今连它的正式名字都叫不太准,产品本身也从未真正“公开亮相”。

不过,业内开始浮现一些隐约线索。有传闻称,刘宇背后的创业公司很可能就是Vivix AI。如果对照 Vivix AI 官网的技术叙述——主打“内容实时互动”“下一代视觉生成引擎”等方向——几乎与刘宇在个人主页上写下的愿景一一对照,技术路线高度同频。

进一步检索公开信息可以发现,Vivix Group Limited 注册于香港,并控股杭州、上海两家名为“维悦时刻科技”的公司。其法人代表余锋伟与宋广录此前都在商汤任职,而刘宇也曾长期担任商汤的研究执行总监。这样的交叉履历,让“老同事再度合体创业”的可能性显得格外顺理成章。

更关键的是,刘宇今年在ICML、CVPR、ICLR等顶会发表的多篇论文中,合作者列表里都出现了余锋伟与宋广录的名字。

不仅如此,公司在官网对于估值的描述与刘宇在博客上的描述也基本一致。

种种迹象相互印证,答案几乎呼之欲出:这支看似低调的“tiny AI venture”,很可能正以 Vivix AI 的身份,在幕后一寸寸搭建中国最具野心的视频模型创业团队。

不过,这些都只是业内推测。

刘宇:从 MMLab 学霸,到商汤几千卡算力的“总指挥”

刘宇属于典型的“港系视觉 AI 一代”。公开资料里,他在港中文 MMLab 体系完成博士训练,师从王晓刚,早期工作集中在图像识别、检测与多视角三维理解;在 ImageNet、MOT 等国际竞赛中拿过一系列冠军,是那种论文和比赛履历都极其好看的“教科书式学霸”。

真正让他被产业圈记住的,是在商汤的那几年。

在个人主页的简介里,他写自己曾是商汤的 Executive Director of Research and GM,带着近百人的团队做大规模 AIGC 和多模态交互模型,手里掌控着超过 4000 张 GPU,用来驱动技术与产品创新。

秒画就是一个标志性样本:官方公开的数据是,这款 AIGC 产品上线仅 9 天,用户数就突破 300 万,DAU 超过 53 万,堪称最早一批真正跑通“AI 画图 + 内容社区”兼顾的产品之一。

这种履历有两个含义。

第一,他不是那种只在论文世界打转的“纯学术派”,而是经历过“几千卡长期开机 + 线上千万级用户”的实战型指挥官,对模型训练、工程系统、产品冷启动、内容审核和商业指标都有过真刀真枪的磨合。

第二,从技术路径上看,他的研究兴趣在近几年明显从“识别”转向“生成 + 多模态 + 长时序”。他参与的工作里,既有图像编辑与高质量生成,也有长视频、动画、世界建模方向的探索。这让他在视频模型这一波浪潮到来之前,就完成了相当程度的知识和工程“预热”。

所以,当他在 2025 年 1 月写下那句 “I founded an AI venture dedicated to shaping the future of real-time interactive multimodal content.”,本质上是在公开宣告:以前在大厂内部打的那些“组合拳”,接下来要在一个更激进、也更纯粹的创业形态里再打一遍。

一年三轮,估值 13.2 亿美元

从时间轴看,这家“tiny AI venture”的融资节奏堪称极致。

2025 年 1 月,公司成立。

2 月,种子轮就锁定红杉中国与 IDG 资本这对“老牌组合”,在早期就拿到了非常强的话语权背书。

8 月,Pre-A 轮估值超过 4 亿美元。

11 月,A 轮估值超过 13.2 亿美元。

这么快的节奏,放到全球 AI 视频赛道也并不多见。对比几个样本:

Runway 在 2025 年 4 月完成了 3.08 亿美元的 D 轮融资,估值被推到 30 亿美元左右,融资方包括 General Atlantic、英伟达、软银等一线机构;

Luma AI 在 2025 年底一轮 9 亿美元融资后,估值来到 40 亿美元,成为视觉内容和视频生成领域里最被看好的独角兽之一

Pika Labs 在 2024–2025 年间通过多轮融资,估值在 4.7 亿到 7 亿美元区间波动,最新公开信息显示约 4.7 亿美元,一些分析认为其潜在目标估值接近 7 亿美元。

换句话说,刘宇的新公司在创立不到一年时,就直接站进了这个 valuation 区间的中上部——而在产品尚未全面公开、品牌知名度也远未到 Runway、Pika 这个级别。

这背后,资本在买的到底是什么?

他们想做怎样的视频模型

目前,刘宇只在主页上透露一句话:公司致力于“real-time interactive multimodal content”,大致可以翻译成“实时交互式多模态内容”。但结合Vivix的公开信息,配合刘宇过去几年的研究轨迹,大概可以帮我们拼出一个轮廓。

过去十几年,我们几乎都活在信息流里。算法帮你把内容排好队,一条条往上刷,所有精彩都已经被提前录制、剪辑、投放好。它高效,却是被动的,它做的永远是“从现有库里选”,而不是“根据你的当下需求现场创作”。它从一开始,就不是为实时互动、多人协同创作而生的。

Vivix 的判断很简单也很激进:下一代互联网的底层界面,不会再是信息流,而是交互式生成人工智能。用户不再是看完一条又一条静态输出,而是站在一套 AI 系统的对面,这个系统能实时“看见”你、“听见”你、理解你的文字、声音、视频乃至动作,并用同样多模态的表达即时回应。所有数字体验的设计逻辑,都要因此被重写:内容不再是预制剧本,而是在你每一次输入、每一个动作之中被临场生成,创作过程本身变成一种持续、流动、充满生命力的互动。

Vivix 想搭的,就是这样一个新范式的底座——不是再造一个推荐引擎,而是做一个“不会推荐内容”的 AI 原生平台:它做的唯一一件事,是通过持续的实时互动,为每个个体生成多模态、个性化的体验。

真正的难点,在于“实时”二字。

今天最强的视频生成模型,在质量上确实已经非常惊人,但只要你想把它用在“交互”场景里,问题就立刻暴露:速度慢,成本高。一次推理往往要几秒甚至几分钟,完全不适合“你说一句、它立刻给你”这种使用方式。粗暴地堆 GPU 做并行,虽然勉强能提速,却会把推理成本拉到每秒几美元的离谱水平,根本没法规模化用在 C 端。

要做到这一点,仅仅在模型结构上做文章远远不够,Vivix 几乎是把整条推理栈都改写了一遍。

第一层是精度与效率的重新定义。传统做法里,“高精度”几乎等于“高成本”,而所谓低精度优化大多停留在粗粒度的 INT8、FP16 转换上,很容易把质量打穿。Vivix 提出的是一种自适应、全频谱的低精度计算:在不同算子、不同路径上动态调整位宽,让每一比特都物尽其用。这不是简单的“全网降一档”,而是结合网络结构和上下文,实时做精度分配。结果是,计算、内存访问、通信三个维度同时受益,吞吐量显著抬升,功耗压到能在消费级硬件上跑的水平上,自适应精度本身被当成了“推理民主化”的基础能力。

第二层,是基于深度学习编译器的推理引擎。今天大多数推理引擎还严重依赖“手工优化内核”——换一块硬件、换一类模型,就得从头调优一遍,既慢又难扩展。Vivix 走的是另一个方向:用智能编译器自动切分、重排计算密集型算子,让它们更好地贴合 GPU 内存和计算结构;在图层级识别计算与通信模式,把互联、CPU 通信和主计算重叠起来;通过对计算图的深度融合,把向量运算和各种非线性层的开销成片削平。这不是在现有内核上再拧一圈螺丝,而是在重新回答一个问题:在模型和硬件演化速度远超工程人力的世界里,推理引擎应该如何工作。

第三层,是为视频场景重写的并行范式。视频生成的难度在于它既有时间维,又有空间维,还有跨模态的耦合,传统那套“简单划分 batch 或分层并行”的做法很快就会撞到墙。Vivix 在这里做的是混合多维并行,把时间、空间、通道、模态拆开、组合,再配合跨模态流水线式的并行策略,在混合 Transformer-CNN 架构上尽可能逼近硬件利用率的理论上限。更关键的是,这一套并行方案会根据实际 GPU 型号、互连拓扑和带宽状况自动调整,让系统在异构环境里也能保持相对稳定的表现。

在这些基础之上,Vivix Turbo 这条“实时视频生成基础设施”线才最终成型:从传统意义上需要几分钟才能产出几秒视频的系统,变成了可以在“0.6T 秒生成 T 秒画面”的推理引擎,整体速度直接提升两个数量级以上。

一旦延迟被打到这个量级,视频 AI 的“物种形态”就会发生变化:如果你要等几个小时,那它只是一台批处理机器;等几分钟,它可以成为一个帮你改版的创意助手;等几秒钟,它开始能支撑快速试错与原型探索;延迟低于一秒,它就彻底变成了一种新的交互媒介,人类创造力的一条延伸神经。

速度和成本的问题解决了,Vivix 盯上的下一个结构性瓶颈,是“以语言为中心的智能范式”。

过去几年,大模型社区几乎所有的优化,都围绕着 LLM 打转:RAG、思维链提示、测试时缩放、用强化学习做推理等等。这些技术确实在可用性上给模型加了很多“外挂”,但 Vivix 的态度很直白:这都还在原有约束条件里打补丁,没有直面问题的根源。

问题的根源在于,当前主流 LLM 的训练目标,仍然只是“预测下一个 token”——本质上是一种统计模仿。这有点像一个人听一首外语歌听了一万遍,最后能倒背如流,却依然不懂歌词在说什么。模型学会的是形式,不是思想。

数据也有同样的局限。人类语言本身就是一种窄带编码:它被意图、文化、记忆和情境层层过滤,再被记录、存储、采样进入训练集。真正喂进模型的,不是完整的现实,而是被过滤、压缩、去语境化之后的“语言回声”,而且多半来自社会中一个带偏见的子集。你让模型在这堆语言上学世界,它学到的必然是偏的。

更进一步,即便对人类来说,思考也不是纯语言的过程。我们的认知扎根于视觉、听觉、动作和记忆,那是我们与世界具身互动留下的痕迹。思想更多是从互动中长出来的,而不是靠内心独白堆叠。今天很多“多模态”系统,看上去能处理图像、视频、音频,实际上把一切都“路由”回语言这一条通道,最后再用语言模型去做决策。这会带来两个结构性问题:一是信息损失,语言丢掉了节奏、情绪、空间连续性;二是认知偏差,语言的先验会强行给其他模态加滤镜,让模型“看世界的方式”出现系统性偏斜。

Vivix 的回答是:要做更贴近现实、更具自主性的智能,AI 必须超越“基于语言特征的 token 预测”,直接去跨模态地、同步地感知世界,在此基础上构建一种原生的内部表征,而不是把所有东西翻译成语言。

这也是为什么他们强调,Vivix 的系统不是“把若干预训练组件拼起来”,而是从一开始就把视觉、听觉、动态画面当作对等的一等公民,训练一个原生多模态的系统:所有模态在一个统一的标记空间里交互,这个空间不是以语言为中心,而是由感知与生成过程共同塑造。语言不再是“总路由”,而只是众多通路之一。

尾声

也许,这家一年三轮、估值突破 13.2 亿美元的“tiny AI venture”之所以让行业格外警觉,并不是因为它涨得快,而是因为它赌得深。

刘宇带着一支不到 20 人、却几乎涵盖模型、系统、编译器、产品体验全栈的团队,选择在视频模型竞争最拥挤的节点上,走一条完全反向的道路:不是做更好看的生成,不是卷参数和分辨率,而是试图把“视频”变成一种实时交互的语言,把下一代互联网的界面重新定义为“AI 原生、实时、多模态”的形态。

这当然大胆,也极其难。产品还没亮相,真正的市场考验还没有开始。但如果他们赌对了,那会是一个方向级的胜利——让视频从被动播放的内容形态,跃迁为人与 AI 协同创造的实时界面。

资本押注的是可能性,行业盯住的是变量,而故事最终还是要落在产品上。接下来最值得期待的,是 Vivix 首个面向 C 端的实时交互产品会长成什么样——它是短暂的“技术炫技”,还是一种全新的互联网交互方式的开端?

这道题,很快就会有答案。(Z Finance)

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version