滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

字节跳动LPM 1.0突破：让虚拟角色在对话中"会听也会说"

时间：2026-04-18 05:16:42 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

虚拟角色与人类对话的体验，正在被一项名为LPM 1.0的技术重新定义。这项由研究团队开发的大规模表演模型，首次将“说话”与“听话”能力整合进同一视频生成系统，让虚拟角色不仅能开口表达，还能通过点头、皱眉、眼神变化等细微反应，展现出对人类话语的真实理解。传统系统中角色仅能机械张合嘴部的局限，被这一创新彻底打破。

研究团队指出，现有虚拟角色生成技术普遍陷入“表演三难困境”：追求动作自然则牺牲实时性，保证流畅播放则降低画面质量，维持角色身份一致性又难以支持长时间互动。LPM 1.0通过系统性设计突破了这些矛盾，其核心在于将“对话感知”能力嵌入模型底层架构，使角色能根据对话状态自动切换行为模式——当检测到用户语音时，系统会激活听话反应模块，生成与语音情感匹配的微表情；当角色需要说话时，则切换至语音同步模块，确保口型与内容精确对应。

数据构建是这项技术的基石。研究团队从海量原始视频中筛选出2300万段说话片段、500万段听话片段，并开发了四阶段处理流水线：首先剔除无人镜头和低质量片段，再通过主动说话者检测模型LR-ASD区分说话、听话与沉默状态，最后由语义验证系统Qwen3-Omni过滤误判内容。针对自然对话中“听话者”画面稀缺的问题，团队特别扩充了包含明显情绪反应的数据集，确保模型能学习到开怀大笑、惊讶等非中性表情。

为解决角色身份漂移难题，研究团队设计了多粒度参考图片系统。该系统包含三类图像：全局外观图提供角色整体形象锚点，多视角身体图展示正侧背四个方向外观，面部表情图集则记录高兴、悲伤等八种基础表情。通过将这些参考图编码为模型可识别的“视觉标记”，系统在生成每帧画面时都能实时比对角色特征，即使角色转身或做夸张表情，也能保持外貌稳定。实验显示，加入多视角参考图后，角色背部服装细节的生成准确率提升了67%。

模型架构方面，Base LPM采用170亿参数的扩散变换器结构，其创新之处在于“交错式双音频注入策略”：偶数层处理说话音频，奇数层处理听话音频，使不同运动模式的信号在各自通道优化。推理时，系统通过滑动窗口解码技术，每秒处理3秒音频（含2秒历史上下文），既保证反应及时性，又维持动作连贯性。针对实时流式生成需求，Online LPM版本采用“骨干-精炼器”双模块设计，骨干模块负责维持视频宏观轨迹，精炼器模块补充高频细节，两者配合使系统能无限时长运行而不出现质量衰减。

在专门设计的LPM-Bench评测基准上，该系统展现出显著优势。对比测试中，64.3%的评估者认为LPM 1.0生成的听话反应优于现有最先进模型，特别是在身份一致性维度，其得分高出对手16个百分点——这得益于系统对角色皮肤纹理、面部结构等细节的精准控制。实时版本Online LPM在动作动态性上获得压倒性好评，82.5%的评估者认为其生成的肢体语言比对比系统更自然流畅。

技术实现背后是复杂的工程优化。训练阶段，团队通过“尤利西斯风格”上下文并行技术，使不同GPU分别处理视频序列的不同片段，再通过集体通信共享注意力信息，将GPU内存占用降低40%。推理阶段，流水线并行策略让骨干生成与精炼细化同步进行，单GPU处理1秒视频的延迟控制在700毫秒以内。为防止滥用，所有生成内容均嵌入不可见数字水印，并配套开发了AI生成检测模型。

当前系统仍存在局限性：暂不支持多人对话场景，角色无法在环境中移动或操作物体，长文本记忆能力也尚未完善。但研究团队已明确技术演进方向：通过引入长期记忆模块增强角色人格一致性，开发多模态注意力机制协调多人互动，并利用3D场景理解技术实现物理交互。这项突破表明，视频生成技术正从“渲染工具”向“社交智能载体”进化，为虚拟助手、游戏NPC等领域带来全新可能。完整技术细节可查阅论文编号arXiv:2604.07823。

更多>同类资讯

2026车载香薰采购指南：从核心维度剖析，选对供应链伙伴赢未来

05-19

理想L9 Livis首发禾赛FTX激光雷达禾赛盘前股价上扬合作深化

05-19

智元机器人：万台量产领跑行业，务实部署开启人形机器人新篇章

但无论谁才是真正意义上的“第一”，有一点已经越来越明确：在人形机器人仍普遍依赖融资输血的盲目阶段，智元与宇树都已经率先跨过了“商业化生存线”，形成了明显领先于行业其他玩家的“双雄格局”。 2024年，宇树首…

05-19

百度AI业务占比首超半壁江山，传统广告承压，AI下半场如何破局？

这主要得益于各行各业对AI的采用加速，百度智能云在训练和推理两大工作负载上均持续迎来增长，尤其推理业务增速尤为迅猛，占比也不断提升。同时，这也反映出百度以订阅制为核心的AI应用，比如百度文库、网盘等应用，…

05-19

从亚马逊热销登顶到沙利文认证：MOVA割草机器人凭什么连拿三项“TOP1”？

当销量数字成为行业竞相追逐的焦点，MOVA割草机器人却以一份硬核成绩单，重新诠释了“TOP1”的深层内涵。在全球智能庭院市场爆发式扩张的浪潮中，MOVA仅用一年时间，便完成了从“行业创新者”到“全球多维第一”的跨越。这份“第一”绝非偶然，而是三重权威认证共同铸就

05-19

禾赛2026年Q1财报亮眼：携手奔驰，战略升级“空间智能”启新程

05-19

禾赛2026年Q1财报亮眼：携手奔驰战略升维，空间智能开启物理AI新征程

05-19

泡泡玛特“逆流”降速：从狂飙突进到深耕细作的健康转型之路

05-19

小米YU7 GT刷新纽北SUV圈速纪录

05-19

京东AI领域高层调整，任命两位实验室负责人，均向段楠汇报

05-19

禾赛科技：一季度营收6.8亿元人民币，净利润1830万元

05-19

抖音生活服务发布「520」消费趋势数据：珠宝首饰团购消费同比增长177%

05-19

寒门子弟转岗大模型年薪百万！华为员工工资条刷屏，AI人才红利重塑职场法则

05-19

Anthropic收购Stainless，谷歌和OpenAI失去关键AI SDK工具

05-19

大摩最新报告：英伟达最新AI GPU贵两倍但长远回报更高

05-19

点击查看更多 +

全站最新

禾赛2026年Q1财报亮眼：携手奔驰战略升维，空间智能开启物理AI新征程

跨端畅玩3A新纪元：拯救者Y70以天禧AI与全境畅连重塑游戏手机体验

禾赛2026年首季业绩亮眼：净收入增至6.8亿，激光雷达出货量大涨

华为员工转岗AI大模型年薪破百万：技术赋能命运，感恩公司成就职场新篇

华为启示录：企业文化非虚设，实为创业成功之基与持续发展之魂

中大型企业客户沟通外包服务怎么选？四大维度+适配建议一文说清

热门内容

本栏最新

百度AI业务占比首超半壁江山，传统广告承压，AI下半场如何破局？

禾赛2026年Q1财报亮眼：携手奔驰，战略升级“空间智能”启新程

禾赛2026年Q1财报亮眼：携手奔驰战略升维，空间智能开启物理AI新征程

跨端畅玩3A新纪元：拯救者Y70以天禧AI与全境畅连重塑游戏手机体验

禾赛2026年首季业绩亮眼：净收入增至6.8亿，激光雷达出货量大涨

华为员工转岗AI大模型年薪破百万：技术赋能命运，感恩公司成就职场新篇

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.