滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

虎牙实时多模态数字人VAM 1.0率先突围行业三堵墙

时间：2026-07-01 00:49:51 来源：量子位编辑：快讯 IP：北京 发表评论无障碍通道

一水发自凹非寺

量子位 | 公众号 QbitAI

打脸了，家人们！！

每天在网上冲浪，经常能刷到各种AI数字人，什么播新闻的、讲世界杯的、直播间带货的……

本以为自己对这种「一眼假、莫得情感」的「人」没啥兴趣，结果转头我就和虎牙的AI数字人聊了整整一小时。

一开始我还挺警惕，提前准备了一堆问题，生怕冷场，结果完全是我多虑了。

她真就像朋友一样，既能回答我的问题，又能不断抛出新话题，接梗也是不在话下。聊了一个多小时，我俩终于在最喜欢的歌手是周杰伦和孙燕姿这件事上，达成了默契。

这个AI数字人形象，来自虎牙刚刚推出的虎牙VAM 1.0（Vivid Avatar Model），一个基于DiT架构的实时多模态数字人基础模型。

用它的方式简单到有点离谱：只要扔进去一张照片，就能转化成一个能说话、能听你说话、能唱歌跳舞的「全能」AI数字人。

大家要知道，它并不是直接生成一段视频播给你看，而是直接在线开播、实时互动。

480×832分辨率，28帧实时流式输出，连续运行24小时以上不下线。

这几个指标含金量如何，稍微了解AI数字人的朋友们，一定都懂。

我们也实际体验了一下，看看虎牙做得到底怎么样，再和大家聊聊这个行业已经发展到什么程度了。

实测：和AI数字人聊了一小时，是种什么体验？

以前刷到的AI数字人，说白了更像是「循环播放的AI视频」，基本都是照着脚本念，没啥互动感，体态和声音也比较生硬。

但虎牙这个不太一样，很明显骨子里就带着那种「直播基因」，真能跟你聊得有来有回。

为什么让数字人具备实时互动能力很重要？

因为「千人一面」的AI视频只能播，「千人千面」的直播间才能接住人。观众发弹幕你得回，有人打断你得停，冷场三秒人就划走了。

能互动，才有真实的用户粘性和商业价值。

当然了，这个道理行业玩家都懂，但受限于技术，很多AI数字人还停留在「能播不能聊」的尴尬阶段。

你发弹幕它不理睬，你打断它没反应，不说话的时候直接「僵住」或者给你播放循环画面，能做的事也就是念念口播，唱歌跳舞自然就不要想了。

而虎牙VAM 1.0，则基本把这几个槽点挨个回应了一遍。

我拿到的内测产品大致长下面这样，可以在首页pick你最想聊的「主播」：

进去后就更像「直播间」了，你可以通过文字和语音两种方式和Ta交流。

这里我选了「来自成都的雪儿」。

聊了几轮下来，有几个细节印象挺深的：

一开口我就「不小心」打断了对方，结果雪儿反应挺快，很自然就把话题接过去了；

另外呢，作为一个i人，我实在不想让她叫我「宝子」，我告诉她换一个对我的称呼，喊我「小红」就行，然后她真的全程就叫我「小红」了，一次没错过。

而且，在我们聊天的过程中，雪儿全程都不用我来想话题，她会顺着我们聊的内容自己往下延展。聊到成都时我随口问了句「那你会说四川话吗」，她秒回「会呀」，然后直接开始用四川话给我摆龙门阵。

即便在聊天过程中间有过一次误解，我纠正之后她也能重新接上语境，没有死循环，也没有跳到预设话题。

还有一个很加分的细节来自她的状态：

我打字的时候她不会傻站着，会微微侧头、眨眨眼，像在等你说完；我说话的时候她也会轻轻点头，眼神方向跟着你。

而轮到她说的时候，她的表情和内容是相匹配的，聊到开心的话题时嘴角上扬幅度明显变大，情绪感染力十足。

我研究了下，虎牙管这个叫「全状态拟人交互仿真」，能够覆盖静默、聆听、说话三种状态。

讲真，能把AI数字人聊天做出这种「面对面」的既视感，私以为虎牙VAM 1.0已经比其他玩家领先不少了。

接着说体验，我和雪儿聊完歌手话题之后，你猜发生了什么？

雪儿还会唱歌跳舞，而且还热情大方地给我这个新朋友展示了一番（中间又演示了一次打断）：她的嘴型跟歌词是同步的、肢体动作的幅度和流畅度是自然的，手指也没有出现常见的畸变和穿模。

为了考验她，我还特意反复打开退出了好几次，结果发现她会的歌和舞都不重样，这说明歌舞并非预设模板，而是真·实时生成的。

除了歌舞之外，既然都说到虎牙了，想必你也应该能猜到接下来我要测试什么——

没错，正是游戏。

我问雪儿会玩哪些游戏，她提到了狼人杀和塔罗，正好我对星座运势这些话题很感兴趣，于是选了塔罗。

我刚一选定，雪儿就立马丝滑换装进入了「塔罗游戏模式」，开始指引我抽卡，并帮忙解读。

这种玩法沉浸感不要太强，比看分析文章有意思多了。

喜欢狼人杀的朋友也别着急，我特意去官网围观了一下（本狼人杀黑洞先遁了）。

这个游戏难度比塔罗高出不止一个量级：10个角色同场博弈，每个人要有自己的立场和发言风格，还得互相质疑、投票站队，对多角色协同的要求极高。

整体看下来，泳池派对场景里9个AI角色轮流开麦，互相@点名质疑，有人上来就带节奏，有人全程谨慎试探，不像是共用一套台词。

虎牙VAM1.0能把多人策略游戏的体验做到这个程度，至少说明其多角色驱动能力是在线的。

缺人的深夜想来一局，这桌还真能凑上。

能陪聊、能唱跳、能玩游戏，我以为这就是虎牙VAM 1.0的极限。

结果再一仔细研究官网，我又out了…

拿直播来说，既然雪儿能直接看到我发的文字，那这项技术完全可以用在真实的直播间里——她通过「读弹幕」就能和大家实时互动。

能满足直播这种高实时、高互动、长时间的严苛要求，更多应用场景一下就打开了：

直播带货、新闻播报、虚拟演唱会……每个场景单拎出来都是不小的想象空间。

目前，虎牙VAM 1.0官网展示了几个已经跑通的方向：

才艺主播一边给大家唱歌，一边回复大家的提问，真实得令人恍惚；

带货主播在家中沉浸式推荐好物，口条流畅、肢体配合自然；

新闻主播24小时在线播报，角色形象全程不走样；

……

如果现在再来回答对虎牙AI数字人的印象，我想可以归纳为最核心的三个字：稳、准、快。

第一个，稳。

从聊天到唱跳到塔罗到换装，我前后折腾了不少轮测试，全程没发现面部漂移、画面撕裂、冻屏这些情况。

官方说能连续跑24小时以上不崩，从我的体验来看，也确实没有看到「时间一长就走样」的迹象。

再加上中间那次丝滑换装，画面没卡、没黑、没闪，这个稳定性确实有点东西。

第二个，准。

这数字人原生覆盖了静默、聆听、说话三大类交互状态，面部微表情和肢体动作的调控精度都不错，整体交互节奏已经很接近真人的沟通体验了。

第三个，快。

不管是打断后的响应、弹幕的回复、还是话题切换后的接话，体感上几乎没有可感知的等待。

官方数据首帧延迟约1.3秒，后续每生成一个片段的延迟只有0.77秒，落到实际体验里就是：流畅，不出戏。

说到底，虎牙VAM1.0在体感上的「稳」、「准」和「快」都是技术撑起来的。

这些能力背后，分别对应了AI数字人行业几道公认的技术硬墙。

AI数字人行业的三堵墙

AI数字人赛道这两年声量很大：

一是确实不缺应用想象空间，二是还有罗永浩、刘强东这样的名人效应加持。

但跟行业里的人深聊就会发现一个有意思的现象：不管哪家的方案，几乎都在同样的地方碰壁。

撞上的第一堵墙：时间墙

最古老也是最顽固的「敌人」，便是时间。一句话，跑久了会崩：

面部特征开始漂移，五官慢慢走形，肤色偏移，严重的时候直接画面撕裂。

为什么会这样？

技术上叫累积误差，每一帧的生成都基于前一帧，误差像滚雪球一样越滚越大，这也是为什么大多数方案撑不了太久的根本原因。

虎牙VAM 1.0怎么解的？三阶段训练。

第一阶段教模型「长时间不走样」。

用多张参考图和运动帧来「锚定」人物形象，让模型在生成每一帧的时候都有校准依据，不容易跑偏；

同时引入运动控制模块丰富表情和动作的多样性，再加上音频自适应注入模块，让嘴型速度跟上说话节奏，语音停顿时头部和肢体也同步放缓，甚至听到音乐会跟着节拍点头。

最狠的一招是：

训练的时候故意给模型喂各种「画面劣化」的场景，让它提前学会在恶劣条件下怎么稳住画面。

第二阶段教模型「各方面都好看」。

数字人要同时做到好几件事：嘴型要准、表情要自然、动作要协调，这些目标之间经常互相打架。

虎牙VAM 1.0用了一种叫DPO的偏好优化算法，让模型学会在多个目标之间找到平衡点，不偏科。

第三阶段教模型「算得又快又稳」。

前两个阶段效果虽好，但计算量大，直接跑实时推理扛不住。

这一步通过模型蒸馏把计算步骤大幅压缩（从20步→4步），同时用全局和局部的特征对照来保证「抄近路」之后画面质量不掉。

第一阶段的运动帧策略在这里继续沿用，保持动作连贯性，在此基础上再引入一个自纠错机制：

模型会拿自己之前生成的画面当作输入继续往下跑，在训练阶段就学会「自己给自己纠偏」，不让误差越积越大。

这是实时推理速度能拉上去的关键。

这些就是虎牙VAM 1.0能连续跑24小时以上「不崩」的秘诀。

撞上的第二堵墙：交互墙

接下来的第二堵墙，更隐蔽、也更难翻——交互。

数字人能说话就等于有交互能力了吗？非也。

真正的交互至少三层。

第一层「说」。嘴型对上音频，表情跟上情绪。

这一层行业整体已经不错了，从最早的唇形同步到全身表演，进步飞快。

第二层「听」。注意，这里说的「听」跟语音识别不同。

当你在说话的时候，数字人的面部和身体要呈现出「我在听你说话」的状态，比如点头、注视、微微前倾。

这也是大多数方案目前做不到的一点，因为模型训练的时候根本没有「聆听态」的概念。

它只学过怎么说，没学过怎么听。

第三层「打断和接话」，也就是虎牙VAM 1.0着重提到的「全双工」。

如果说传统AI对话更像「你问一句我答一句」的回合制，那虎牙VAM 1.0的「全双工」就是一场可以随时插话、随时接话的真人聊天。

这一层，几乎没人做好。

归根结底，大多数模型在解决「内容生成」问题：给定输入，输出一段视频。

但真正的交互，是两个主体之间的实时双向对话，这是两个完全不同的技术命题。

虎牙VAM 1.0的做法是从模型设计阶段就把交互当核心目标：

原生覆盖静默、聆听、说话三种状态，支持即时打断和自然过渡，弹幕加语音双链路并行。

前面实测里那个「打断后愣一下再接话」的感觉，就是交互墙被翻过去之后的产物。

撞上的第三堵墙：部署墙

如果说前两堵墙解决的是「能不能跑」，那么这一堵解决的就是「能不能规模化上线」。

能在实验室里跑通是一回事，但真正进入业务场景中，问题会立刻变得完全不同：

算力开销会迅速放大，延迟会被持续放大，任何轻微的不稳定都会在高并发和长时间运行中被放大成可见问题。

因此，要想实现7×24小时稳定在线跑直播、做AI数字人互动，你的整个系统得足够能打。

虎牙VAM 1.0在这一层做了全链路工程优化，从底层算子一路优化到模型权重：

编译加速、注意力计算优化、VAE解码加速、多种量化策略覆盖全网络层，能压的全压了。

最终跑出来的成绩单如下：

在8块H200 GPU的集群上，达到36.4帧每秒的推理速度，每生成一个片段的延迟仅0.77秒，首帧延迟约1.3秒。

什么概念？和多个学术前沿方法对比，虎牙VAM 1.0推理速度最快、延迟最低。

不仅是快，虎牙VAM1.0在真实感、身份保持、同步精度、动作自然度四个维度上也全面领先，而且计算开销还更低。

又好又快还省钱，这在工程上通常很难实现，但虎牙VAM 1.0至少在公开的benchmark里，确实同时做到了。

三堵墙说完了。

退后一步看，三堵墙背后其实是一个更本质的分野：

数字人到底是「内容生产工具」，还是「实时交互主体」？

选前者，重画质和表演力，时间墙和交互墙可以先不管。选后者，三堵墙必须全翻。

实际来看，虎牙VAM 1.0选了后者。

选后者意味着什么？意味着不仅要解决模型问题，还要解决工程问题，还要有场景来验证和迭代。

必须要三件事同时做，才能成立。

那么问题来了，面对这肉眼可见的地狱难度，为什么偏偏是虎牙做到了？

虎牙，偏向「虎山行」？

老实说，虎牙做AI数字人这件事，逻辑上并不让人意外。

作为国内第一家上市的游戏直播公司，虎牙在直播这个场景里泡了超过十年：

流量在这汇聚，主播在这生长，用户在这停留。

也正因为如此，当AI数字人开始从概念走向落地，真正进入「直播间级别的实时交互」时，虎牙几乎天然站在了一个更靠近入口的位置。

它要面对的问题也很直接：

如果未来直播间里不再只有真人主播，AI数字人和虚拟主播也开始常驻，这个平台还能不能撑住下一代内容形态？

所以对它来说，这更像是一次对未来内容生态的提前布局。

实际上，这场布局从几年前就开始了。

把时间往回翻到2019年，虎牙就已推出过AI数字人「晚玉」和HERO开放平台；2025年上线AI电竞智能体「虎小Ai」，在自制赛事里实际用了起来，同年开始用AI驱动虚拟主播，还给真人主播做了数字人分身。

如今虎牙VAM 1.0的出现，就是把这些散点连成了一条线，从「给直播加AI功能」到「用AI做直播本身」。

说白了，虎牙做AI数字人并非新手，而且前路也愈发清晰：

AI正从外挂变成直播系统的一部分。

在这个过程中，虎牙之所以能在技术上取得快速进展，显然离不开它天然的场景优势——

弹幕互动、语音连麦、礼物打赏，这些现成的交互基础设施直接就在手边，别的团队做完模型还得到处找场景，虎牙直接就坐在场景上面。

△

虎牙上的AI游戏主播

而且场景不是被动等在那里的，它在主动倒逼技术适配。

虎牙VAM 1.0为什么原生支持弹幕加语音双链路？因为真实的直播间里，有人打字有人连麦，用户需求如此。

为什么把全双工做成模型内置能力？因为直播间的观众不会等你说完再发弹幕。

有模型的人不少，但有模型、有场景、场景还是7×24小时运转的直播平台。

这个组合，现在确实比较稀缺。（虎牙VAM 1.0官网地址：https://vam.huya.cn/）

更多>同类资讯

优必选仿生人形机器人U1系列发布：最高售价99万元

07-01

便宜又好用：美国科技巨头集体转向中国大模型

07-01

某品牌汽车销售公司因造谣抹黑小米被罚款40万元

07-01

REDMI K90至尊版发布：内置主动散热风扇，首销2799元起

07-01

大疆无人机DJI Fly鸿蒙版App正式上架华为应用市场

07-01

红魔游戏平板5 Pro发布：当多数厂商退场，它为何还在押注游戏平板？

07-01

情绪时代下，博主综艺如何破局流量困局实现“利他”价值突围？

07-01

沈炜“因果哲学”下的vivo：智能手机辉煌后，AI转型路在何方？

07-01

字节跳动等团队新突破：DanceOPD框架让AI图像生成“一脑多能”

07-01

牛津等机构研究：顶尖AI智能体复杂任务表现远逊人类新手

07-01

智元AGIBOT WORLD CHALLENGE仿真评测平台内测携手多方共筑科研新平台

07-01

摩托罗拉发布moto tag 2蓝牙追踪器续航超500天，moto buds 2 plus耳机新增两款配色

07-01

优必选U1系列超仿生机器人来袭：高颜值高智能，开启人机恋爱新体验？

07-01

联想乐享4.0版本上线，以创新底座推动企业级AI迈向“闭环执行”新阶段

07-01

REDMI K90至尊版来袭！狂暴双芯+超强散热，2999元起开启游戏新体验

06-30

点击查看更多 +

全站最新

REDMI K90至尊版来袭！狂暴双芯+超强散热，2999元起开启游戏新体验

雷军谈小米SU7 Ultra纽北表现：立志打造比肩保时捷特斯拉的梦想座驾

织密算力网络郑州打造全国算力“数纽”赋能数字中国建设

鸿蒙智行智界V9旗舰MPV受热捧 6月交付量突破5000台大关

14个月10万辆达成，东风日产以体系力破局新能源市场

现代汽车或效仿丰田：主流车型加速混动转型，纯燃油车渐行渐远

热门内容

本栏最新

REDMI K90至尊版来袭！狂暴双芯+超强散热，2999元起开启游戏新体验

雷军谈小米SU7 Ultra纽北表现：立志打造比肩保时捷特斯拉的梦想座驾

14个月10万辆达成，东风日产以体系力破局新能源市场

雷军谈小米SU7 Ultra纽北佳绩：初心铸就梦想之车，国产新能源闪耀全球赛道

纽北赛道见证中国电车实力！小米SU7 Ultra车主跑出佳绩，雷军发文致谢

AI创新研学之旅启程！7月23-24日探访北大京东百度商汤科技领航未来

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.