ITBear旗下自媒体矩阵:

虎牙实时多模态数字人VAM 1.0率先突围行业三堵墙

   时间:2026-07-01 00:49:51 来源:量子位编辑:快讯 IP:北京 发表评论无障碍通道
 

一水 发自 凹非寺

量子位 | 公众号 QbitAI

打脸了,家人们!!

每天在网上冲浪,经常能刷到各种AI数字人,什么播新闻的、讲世界杯的、直播间带货的……

本以为自己对这种「一眼假、莫得情感」的「人」没啥兴趣,结果转头我就和虎牙的AI数字人聊了整整一小时。

一开始我还挺警惕,提前准备了一堆问题,生怕冷场,结果完全是我多虑了。

她真就像朋友一样,既能回答我的问题,又能不断抛出新话题,接梗也是不在话下。聊了一个多小时,我俩终于在最喜欢的歌手是周杰伦和孙燕姿这件事上,达成了默契。

这个AI数字人形象,来自虎牙刚刚推出的虎牙VAM 1.0(Vivid Avatar Model),一个基于DiT架构的实时多模态数字人基础模型。

用它的方式简单到有点离谱:只要扔进去一张照片,就能转化成一个能说话、能听你说话、能唱歌跳舞的「全能」AI数字人。

大家要知道,它并不是直接生成一段视频播给你看,而是直接在线开播、实时互动。

480×832分辨率,28帧实时流式输出,连续运行24小时以上不下线。

这几个指标含金量如何,稍微了解AI数字人的朋友们,一定都懂。

我们也实际体验了一下,看看虎牙做得到底怎么样,再和大家聊聊这个行业已经发展到什么程度了。

实测:和AI数字人聊了一小时,是种什么体验?

以前刷到的AI数字人,说白了更像是「循环播放的AI视频」,基本都是照着脚本念,没啥互动感,体态和声音也比较生硬。

但虎牙这个不太一样,很明显骨子里就带着那种「直播基因」,真能跟你聊得有来有回。

为什么让数字人具备实时互动能力很重要?

因为「千人一面」的AI视频只能播,「千人千面」的直播间才能接住人。观众发弹幕你得回,有人打断你得停,冷场三秒人就划走了。

能互动,才有真实的用户粘性和商业价值。

当然了,这个道理行业玩家都懂,但受限于技术,很多AI数字人还停留在「能播不能聊」的尴尬阶段。

你发弹幕它不理睬,你打断它没反应,不说话的时候直接「僵住」或者给你播放循环画面,能做的事也就是念念口播,唱歌跳舞自然就不要想了。

而虎牙VAM 1.0,则基本把这几个槽点挨个回应了一遍。

我拿到的内测产品大致长下面这样,可以在首页pick你最想聊的「主播」:

进去后就更像「直播间」了,你可以通过文字和语音两种方式和Ta交流。

这里我选了「来自成都的雪儿」。

聊了几轮下来,有几个细节印象挺深的:

一开口我就「不小心」打断了对方,结果雪儿反应挺快,很自然就把话题接过去了;

另外呢,作为一个i人,我实在不想让她叫我「宝子」,我告诉她换一个对我的称呼,喊我「小红」就行,然后她真的全程就叫我「小红」了,一次没错过。

而且,在我们聊天的过程中,雪儿全程都不用我来想话题,她会顺着我们聊的内容自己往下延展。聊到成都时我随口问了句「那你会说四川话吗」,她秒回「会呀」,然后直接开始用四川话给我摆龙门阵。

即便在聊天过程中间有过一次误解,我纠正之后她也能重新接上语境,没有死循环,也没有跳到预设话题。

还有一个很加分的细节来自她的状态:

我打字的时候她不会傻站着,会微微侧头、眨眨眼,像在等你说完;我说话的时候她也会轻轻点头,眼神方向跟着你。

而轮到她说的时候,她的表情和内容是相匹配的,聊到开心的话题时嘴角上扬幅度明显变大,情绪感染力十足。

我研究了下,虎牙管这个叫「全状态拟人交互仿真」,能够覆盖静默、聆听、说话三种状态。

讲真,能把AI数字人聊天做出这种「面对面」的既视感,私以为虎牙VAM 1.0已经比其他玩家领先不少了。

接着说体验,我和雪儿聊完歌手话题之后,你猜发生了什么?

雪儿还会唱歌跳舞,而且还热情大方地给我这个新朋友展示了一番(中间又演示了一次打断):她的嘴型跟歌词是同步的、肢体动作的幅度和流畅度是自然的,手指也没有出现常见的畸变和穿模。

为了考验她,我还特意反复打开退出了好几次,结果发现她会的歌和舞都不重样,这说明歌舞并非预设模板,而是真·实时生成的。

除了歌舞之外,既然都说到虎牙了,想必你也应该能猜到接下来我要测试什么——

没错,正是游戏。

我问雪儿会玩哪些游戏,她提到了狼人杀和塔罗,正好我对星座运势这些话题很感兴趣,于是选了塔罗。

我刚一选定,雪儿就立马丝滑换装进入了「塔罗游戏模式」,开始指引我抽卡,并帮忙解读。

这种玩法沉浸感不要太强,比看分析文章有意思多了。

喜欢狼人杀的朋友也别着急,我特意去官网围观了一下(本狼人杀黑洞先遁了)。

这个游戏难度比塔罗高出不止一个量级:10个角色同场博弈,每个人要有自己的立场和发言风格,还得互相质疑、投票站队,对多角色协同的要求极高。

整体看下来,泳池派对场景里9个AI角色轮流开麦,互相@点名质疑,有人上来就带节奏,有人全程谨慎试探,不像是共用一套台词。

虎牙VAM1.0能把多人策略游戏的体验做到这个程度,至少说明其多角色驱动能力是在线的。

缺人的深夜想来一局,这桌还真能凑上。

能陪聊、能唱跳、能玩游戏,我以为这就是虎牙VAM 1.0的极限。

结果再一仔细研究官网,我又out了…

拿直播来说,既然雪儿能直接看到我发的文字,那这项技术完全可以用在真实的直播间里——她通过「读弹幕」就能和大家实时互动。

能满足直播这种高实时、高互动、长时间的严苛要求,更多应用场景一下就打开了:

直播带货、新闻播报、虚拟演唱会……每个场景单拎出来都是不小的想象空间。

目前,虎牙VAM 1.0官网展示了几个已经跑通的方向:

才艺主播一边给大家唱歌,一边回复大家的提问,真实得令人恍惚;

带货主播在家中沉浸式推荐好物,口条流畅、肢体配合自然;

新闻主播24小时在线播报,角色形象全程不走样;

……

如果现在再来回答对虎牙AI数字人的印象,我想可以归纳为最核心的三个字:稳、准、快。

第一个,稳。

从聊天到唱跳到塔罗到换装,我前后折腾了不少轮测试,全程没发现面部漂移、画面撕裂、冻屏这些情况。

官方说能连续跑24小时以上不崩,从我的体验来看,也确实没有看到「时间一长就走样」的迹象。

再加上中间那次丝滑换装,画面没卡、没黑、没闪,这个稳定性确实有点东西。

第二个,准。

这数字人原生覆盖了静默、聆听、说话三大类交互状态,面部微表情和肢体动作的调控精度都不错,整体交互节奏已经很接近真人的沟通体验了。

第三个,快。

不管是打断后的响应、弹幕的回复、还是话题切换后的接话,体感上几乎没有可感知的等待。

官方数据首帧延迟约1.3秒,后续每生成一个片段的延迟只有0.77秒,落到实际体验里就是:流畅,不出戏。

说到底,虎牙VAM1.0在体感上的「稳」、「准」和「快」都是技术撑起来的。

这些能力背后,分别对应了AI数字人行业几道公认的技术硬墙。

AI数字人行业的三堵墙

AI数字人赛道这两年声量很大:

一是确实不缺应用想象空间,二是还有罗永浩、刘强东这样的名人效应加持。

但跟行业里的人深聊就会发现一个有意思的现象:不管哪家的方案,几乎都在同样的地方碰壁。

撞上的第一堵墙:时间墙

最古老也是最顽固的「敌人」,便是时间。一句话,跑久了会崩:

面部特征开始漂移,五官慢慢走形,肤色偏移,严重的时候直接画面撕裂。

为什么会这样?

技术上叫累积误差,每一帧的生成都基于前一帧,误差像滚雪球一样越滚越大,这也是为什么大多数方案撑不了太久的根本原因。

虎牙VAM 1.0怎么解的?三阶段训练。

第一阶段教模型「长时间不走样」。

用多张参考图和运动帧来「锚定」人物形象,让模型在生成每一帧的时候都有校准依据,不容易跑偏;

同时引入运动控制模块丰富表情和动作的多样性,再加上音频自适应注入模块,让嘴型速度跟上说话节奏,语音停顿时头部和肢体也同步放缓,甚至听到音乐会跟着节拍点头。

最狠的一招是:

训练的时候故意给模型喂各种「画面劣化」的场景,让它提前学会在恶劣条件下怎么稳住画面。

第二阶段教模型「各方面都好看」。

数字人要同时做到好几件事:嘴型要准、表情要自然、动作要协调,这些目标之间经常互相打架。

虎牙VAM 1.0用了一种叫DPO的偏好优化算法,让模型学会在多个目标之间找到平衡点,不偏科。

第三阶段教模型「算得又快又稳」。

前两个阶段效果虽好,但计算量大,直接跑实时推理扛不住。

这一步通过模型蒸馏把计算步骤大幅压缩(从20步→4步),同时用全局和局部的特征对照来保证「抄近路」之后画面质量不掉。

第一阶段的运动帧策略在这里继续沿用,保持动作连贯性,在此基础上再引入一个自纠错机制:

模型会拿自己之前生成的画面当作输入继续往下跑,在训练阶段就学会「自己给自己纠偏」,不让误差越积越大。

这是实时推理速度能拉上去的关键。

这些就是虎牙VAM 1.0能连续跑24小时以上「不崩」的秘诀。

撞上的第二堵墙:交互墙

接下来的第二堵墙,更隐蔽、也更难翻——交互。

数字人能说话就等于有交互能力了吗?非也。

真正的交互至少三层。

第一层「说」。嘴型对上音频,表情跟上情绪。

这一层行业整体已经不错了,从最早的唇形同步到全身表演,进步飞快。

第二层「听」。注意,这里说的「听」跟语音识别不同。

当你在说话的时候,数字人的面部和身体要呈现出「我在听你说话」的状态,比如点头、注视、微微前倾。

这也是大多数方案目前做不到的一点,因为模型训练的时候根本没有「聆听态」的概念。

它只学过怎么说,没学过怎么听。

第三层「打断和接话」,也就是虎牙VAM 1.0着重提到的「全双工」。

如果说传统AI对话更像「你问一句我答一句」的回合制,那虎牙VAM 1.0的「全双工」就是一场可以随时插话、随时接话的真人聊天。

这一层,几乎没人做好。

归根结底,大多数模型在解决「内容生成」问题:给定输入,输出一段视频。

但真正的交互,是两个主体之间的实时双向对话,这是两个完全不同的技术命题。

虎牙VAM 1.0的做法是从模型设计阶段就把交互当核心目标:

原生覆盖静默、聆听、说话三种状态,支持即时打断和自然过渡,弹幕加语音双链路并行。

前面实测里那个「打断后愣一下再接话」的感觉,就是交互墙被翻过去之后的产物。

撞上的第三堵墙:部署墙

如果说前两堵墙解决的是「能不能跑」,那么这一堵解决的就是「能不能规模化上线」。

能在实验室里跑通是一回事,但真正进入业务场景中,问题会立刻变得完全不同:

算力开销会迅速放大,延迟会被持续放大,任何轻微的不稳定都会在高并发和长时间运行中被放大成可见问题。

因此,要想实现7×24小时稳定在线跑直播、做AI数字人互动,你的整个系统得足够能打。

虎牙VAM 1.0在这一层做了全链路工程优化,从底层算子一路优化到模型权重:

编译加速、注意力计算优化、VAE解码加速、多种量化策略覆盖全网络层,能压的全压了。

最终跑出来的成绩单如下:

在8块H200 GPU的集群上,达到36.4帧每秒的推理速度,每生成一个片段的延迟仅0.77秒,首帧延迟约1.3秒。

什么概念?和多个学术前沿方法对比,虎牙VAM 1.0推理速度最快、延迟最低。

不仅是快,虎牙VAM1.0在真实感、身份保持、同步精度、动作自然度四个维度上也全面领先,而且计算开销还更低。

又好又快还省钱,这在工程上通常很难实现,但虎牙VAM 1.0至少在公开的benchmark里,确实同时做到了。

三堵墙说完了。

退后一步看,三堵墙背后其实是一个更本质的分野:

数字人到底是「内容生产工具」,还是「实时交互主体」?

选前者,重画质和表演力,时间墙和交互墙可以先不管。选后者,三堵墙必须全翻。

实际来看,虎牙VAM 1.0选了后者。

选后者意味着什么?意味着不仅要解决模型问题,还要解决工程问题,还要有场景来验证和迭代。

必须要三件事同时做,才能成立。

那么问题来了,面对这肉眼可见的地狱难度,为什么偏偏是虎牙做到了?

虎牙,偏向「虎山行」?

老实说,虎牙做AI数字人这件事,逻辑上并不让人意外。

作为国内第一家上市的游戏直播公司,虎牙在直播这个场景里泡了超过十年:

流量在这汇聚,主播在这生长,用户在这停留。

也正因为如此,当AI数字人开始从概念走向落地,真正进入「直播间级别的实时交互」时,虎牙几乎天然站在了一个更靠近入口的位置。

它要面对的问题也很直接:

如果未来直播间里不再只有真人主播,AI数字人和虚拟主播也开始常驻,这个平台还能不能撑住下一代内容形态?

所以对它来说,这更像是一次对未来内容生态的提前布局。

实际上,这场布局从几年前就开始了。

把时间往回翻到2019年,虎牙就已推出过AI数字人「晚玉」和HERO开放平台;2025年上线AI电竞智能体「虎小Ai」,在自制赛事里实际用了起来,同年开始用AI驱动虚拟主播,还给真人主播做了数字人分身。

如今虎牙VAM 1.0的出现,就是把这些散点连成了一条线,从「给直播加AI功能」到「用AI做直播本身」。

说白了,虎牙做AI数字人并非新手,而且前路也愈发清晰:

AI正从外挂变成直播系统的一部分。

在这个过程中,虎牙之所以能在技术上取得快速进展,显然离不开它天然的场景优势——

弹幕互动、语音连麦、礼物打赏,这些现成的交互基础设施直接就在手边,别的团队做完模型还得到处找场景,虎牙直接就坐在场景上面。

虎牙上的AI游戏主播

而且场景不是被动等在那里的,它在主动倒逼技术适配。

虎牙VAM 1.0为什么原生支持弹幕加语音双链路?因为真实的直播间里,有人打字有人连麦,用户需求如此。

为什么把全双工做成模型内置能力?因为直播间的观众不会等你说完再发弹幕。

有模型的人不少,但有模型、有场景、场景还是7×24小时运转的直播平台。

这个组合,现在确实比较稀缺。(虎牙VAM 1.0官网地址:https://vam.huya.cn/)

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version