东京理工学院联合多所高校的研究团队近日取得一项突破性进展,其开发的DyaDiT技术为虚拟角色赋予了更接近人类社交能力的互动方式。这项创新成果通过分析对话双方的语音、关系类型及性格特征,使数字人能够生成符合情境的肢体语言,彻底改变了传统虚拟角色互动模式单一、缺乏情感共鸣的现状。
在真实社交场景中,人们会通过点头、手势、身体姿态等非语言方式传递信息,这些行为往往与对话内容、双方关系及性格特质紧密相关。例如,外向者可能伴随夸张的手势,而内向者更倾向于用微笑或轻微点头回应;恋人间的互动充满亲密感,陌生人则保持礼貌距离。然而,现有虚拟角色仅能根据自身语音生成固定手势,无法感知对方反应或调整行为模式,导致互动显得机械生硬。
研究团队为攻克这一难题,构建了包含182小时真实双人对话的"无缝交互数据集"。该数据库覆盖朋友、情侣、家人等不同关系类型,以及外向、内向等多元性格组合,为系统训练提供了丰富的样本。通过深度学习这些数据,DyaDiT技术掌握了人类社交的隐性规则,能够根据对话情境动态调整虚拟角色的行为表现。
技术实现层面,系统采用扩散变换器架构,通过逐步细化生成动作序列。其核心创新包括"正交化交叉注意力机制"与"动作词典":前者可精准分离对话双方的语音信号,避免同时说话时的干扰;后者则将肢体语言拆解为1000种基础动作单元,系统通过组合这些"词汇"构建自然流畅的互动行为。例如,当检测到对方表达困惑时,系统可能选择摊手加皱眉的组合动作;面对积极反馈时,则生成点头配合微笑的反应。
社交关系与性格特征的建模是该技术的另一亮点。系统借鉴心理学"大五人格理论",将性格维度转化为可量化的参数,使外向者表现为更大胆的手势,内向者呈现更含蓄的肢体语言。同时,通过分析对话中的语气、用词及互动频率,系统能准确判断双方关系,并生成符合情境的亲密程度——恋人间的互动可能包含更多眼神交流与身体接触,而商务洽谈场景则保持专业距离。
实验数据显示,73.9%的用户认为DyaDiT生成的动作"像真人",69.8%的用户肯定其能准确反映双方关系,66.7%的用户认可性格特征的呈现效果。部分测试者甚至表示,系统优化的动作比原始录像更自然,这得益于算法对冗余抖动的过滤与动作流畅度的提升。消融实验进一步验证了各模块的必要性:移除声音分离模块后,系统在多人对话中的表现下降27%;取消动作词典则使动作多样性减少41%。
这项技术已展现出广泛的应用潜力。在游戏领域,非玩家角色(NPC)可根据玩家行为与关系动态调整反应,增强沉浸感;教育场景中,虚拟教师能通过肢体语言传递鼓励或安抚信号;心理健康服务领域,虚拟治疗师可模拟更人性化的互动模式;远程协作平台则能借助更自然的虚拟化身改善沟通体验。当前系统主要生成上半身动作,未来研究将拓展至面部表情、步态等全身语言,并探索为对话双方同步生成协调互动的技术路径。
对于技术细节感兴趣的读者,可通过论文编号arXiv:2602.23165v1查阅完整研究报告,其中包含架构设计、算法原理及实验数据的详细分析。这项成果不仅推动了人机交互技术的进步,更引发关于"人性化数字世界"的深层思考——当虚拟角色开始理解社交规则、展现个性特质时,人类对自身独特性的认知或许也将面临新的挑战。











