ITBear旗下自媒体矩阵:

字节跳动LPM 1.0突破:让虚拟角色在对话中"会听也会说"

   时间:2026-04-18 05:16:42 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

虚拟角色与人类对话的体验,正在被一项名为LPM 1.0的技术重新定义。这项由研究团队开发的大规模表演模型,首次将“说话”与“听话”能力整合进同一视频生成系统,让虚拟角色不仅能开口表达,还能通过点头、皱眉、眼神变化等细微反应,展现出对人类话语的真实理解。传统系统中角色仅能机械张合嘴部的局限,被这一创新彻底打破。

研究团队指出,现有虚拟角色生成技术普遍陷入“表演三难困境”:追求动作自然则牺牲实时性,保证流畅播放则降低画面质量,维持角色身份一致性又难以支持长时间互动。LPM 1.0通过系统性设计突破了这些矛盾,其核心在于将“对话感知”能力嵌入模型底层架构,使角色能根据对话状态自动切换行为模式——当检测到用户语音时,系统会激活听话反应模块,生成与语音情感匹配的微表情;当角色需要说话时,则切换至语音同步模块,确保口型与内容精确对应。

数据构建是这项技术的基石。研究团队从海量原始视频中筛选出2300万段说话片段、500万段听话片段,并开发了四阶段处理流水线:首先剔除无人镜头和低质量片段,再通过主动说话者检测模型LR-ASD区分说话、听话与沉默状态,最后由语义验证系统Qwen3-Omni过滤误判内容。针对自然对话中“听话者”画面稀缺的问题,团队特别扩充了包含明显情绪反应的数据集,确保模型能学习到开怀大笑、惊讶等非中性表情。

为解决角色身份漂移难题,研究团队设计了多粒度参考图片系统。该系统包含三类图像:全局外观图提供角色整体形象锚点,多视角身体图展示正侧背四个方向外观,面部表情图集则记录高兴、悲伤等八种基础表情。通过将这些参考图编码为模型可识别的“视觉标记”,系统在生成每帧画面时都能实时比对角色特征,即使角色转身或做夸张表情,也能保持外貌稳定。实验显示,加入多视角参考图后,角色背部服装细节的生成准确率提升了67%。

模型架构方面,Base LPM采用170亿参数的扩散变换器结构,其创新之处在于“交错式双音频注入策略”:偶数层处理说话音频,奇数层处理听话音频,使不同运动模式的信号在各自通道优化。推理时,系统通过滑动窗口解码技术,每秒处理3秒音频(含2秒历史上下文),既保证反应及时性,又维持动作连贯性。针对实时流式生成需求,Online LPM版本采用“骨干-精炼器”双模块设计,骨干模块负责维持视频宏观轨迹,精炼器模块补充高频细节,两者配合使系统能无限时长运行而不出现质量衰减。

在专门设计的LPM-Bench评测基准上,该系统展现出显著优势。对比测试中,64.3%的评估者认为LPM 1.0生成的听话反应优于现有最先进模型,特别是在身份一致性维度,其得分高出对手16个百分点——这得益于系统对角色皮肤纹理、面部结构等细节的精准控制。实时版本Online LPM在动作动态性上获得压倒性好评,82.5%的评估者认为其生成的肢体语言比对比系统更自然流畅。

技术实现背后是复杂的工程优化。训练阶段,团队通过“尤利西斯风格”上下文并行技术,使不同GPU分别处理视频序列的不同片段,再通过集体通信共享注意力信息,将GPU内存占用降低40%。推理阶段,流水线并行策略让骨干生成与精炼细化同步进行,单GPU处理1秒视频的延迟控制在700毫秒以内。为防止滥用,所有生成内容均嵌入不可见数字水印,并配套开发了AI生成检测模型。

当前系统仍存在局限性:暂不支持多人对话场景,角色无法在环境中移动或操作物体,长文本记忆能力也尚未完善。但研究团队已明确技术演进方向:通过引入长期记忆模块增强角色人格一致性,开发多模态注意力机制协调多人互动,并利用3D场景理解技术实现物理交互。这项突破表明,视频生成技术正从“渲染工具”向“社交智能载体”进化,为虚拟助手、游戏NPC等领域带来全新可能。完整技术细节可查阅论文编号arXiv:2604.07823。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version