滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

腾讯混元AI新突破：语音数字人技术，照片加音频秒变个性化唱歌视频

时间：2025-05-29 19:47:09 来源：ITBEAR编辑：快讯团队 发表评论无障碍通道

腾讯混元团队携手腾讯音乐天琴实验室，近期宣布了一项重大技术突破：他们联合推出了开源的语音数字人模型——HunyuanVideo-Avatar。这一创新技术仅需用户的一张人物照片和一段音频，便能自动生成包含生动表情、精准唇形同步以及全身动作的动态视频。

HunyuanVideo-Avatar的核心在于腾讯混元视频大模型与MuseV技术的深度融合。该技术模型凭借其强大的多模态理解能力，能够精确解析用户提供的图像中的环境信息和音频中的情感内容，从而生成与输入高度匹配的视频内容。例如，当用户上传一张女性在海滩弹奏吉他的照片并配以抒情音乐时，系统能够智能识别并生成相应的海边弹唱视频。

在功能方面，HunyuanVideo-Avatar突破了传统数字人技术仅支持头部动作的局限，实现了头肩、半身以及全身三种不同景别模式的全面支持。该技术还覆盖了赛博朋克、2D动漫、中国水墨画等多种艺术风格，并且能够驱动机器人、动物等多种角色，甚至处理双人或多人互动场景。

在腾讯音乐娱乐集团的多个核心产品中，HunyuanVideo-Avatar已经得到了实际应用。在QQ音乐平台上，当用户收听“AI力宏”的歌曲时，AI生成的虚拟形象会在播放界面实时同步演唱动作。酷狗音乐的长音频绘本功能则利用AI虚拟人讲述故事，为用户带来全新的听觉体验。而在全民K歌平台上，用户可以通过上传个人照片，生成专属的个性化唱歌视频。

从技术架构来看，HunyuanVideo-Avatar采用了多模态扩散Transformer（MM-DiT）作为其核心架构。该架构通过角色图像注入模块确保视频中人物的一致性，同时利用音频情感模块从声音和图像中提取情感特征，生成细腻的面部表情和肢体动作。针对多人场景，该技术还配备了面部感知音频适配器，利用人脸掩码技术实现多角色的独立精准驱动。

据官方介绍，HunyuanVideo-Avatar在主体一致性和音画同步准确度方面已经达到了业内领先水平，超越了现有的开源和闭源解决方案。在画面动态性和肢体自然度方面，该技术也与主流闭源方案处于同一技术水准。目前，HunyuanVideo-Avatar的单主体功能已经在腾讯混元官方网站开放体验，用户可以通过特定路径访问并尝试这一创新功能。系统当前支持上传不超过14秒的音频文件，未来还将逐步开放更多高级功能模块。

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

Opera Neon：AI浏览器新纪元，能写代码还会建站？

05-29

纳德拉：微软不盲目追AGI，更看重AI技术的社会实际影响

05-29

Meta AI团队大调整，能否助其扭转Llama 4失利局面？

智东西5月28日消息，据外媒The Information最新报道，近日Meta对其生成式人工智能（AI）团队人员架构进行重组，以往扭转Meta在AI领域的被动局面。过去两年间，该团队积累了包括Llama、…

05-29

兴趣消费风起，什么值得买如何引领新潮流？

05-29

中国艾欧智能团队跨国夺冠，1.2万公里外精准遥控机器人展实力

05-29

真我Neo7 Turbo评测：透明设计亮眼，中端性能新标杆？

05-29

DeepSeek新模型低调上线，AI开发者沸腾：性能直逼OpenAI引热议

05-29

空地互联科创展大放异彩，航空互联网创新成果引领未来

05-29

魔乐社区与中国信通院共创未来，开源大模型智选中心正式成立！

05-29

银联智能支付服务上线：AI对话中直接支付，拓宽服务新边界

05-29

Netflix创始人Hastings携手Anthropic，共探AI新未来

05-29

巨头联手！共建终端智能体生态，开启智能服务新时代

05-29

Meta AI月活用户破10亿，扎克伯格：将深化个性化、语音对话体验

新榜讯据新浪财经消息，周三，Meta首席执行官马克·扎克伯格在年度股东大会上透露，公司旗下人工智能助手Meta AI在其应用系列中现已有10亿月度活跃用户。扎克伯格还表示，今年公司工作重点在于深化体验，致力…

05-29

快消数字化新航向：玄瞳与百亿俱乐部CIO研修班广州圆满落幕！

05-29

宇树科技等联手打造亿元注册资本具身智能中试基地，科技新篇章开启！

05-29

点击查看更多 +

全站最新

何小鹏详解小鹏汽车驾驶路线：放弃激光雷达，押注“强大大脑”？

荣耀400系列预售火爆，国补价2124元起，1小时预订量增278%

微软Windows Update大变革：第三方软件将可一站式更新

小鹏汽车何小鹏：放弃激光雷达，我们用“强大大脑”引领辅助驾驶新潮流

2亿像素手机时代来临？索尼豪威加入，多款新机即将亮相

Win11五月更新再陷安装困境，微软确认CPU电源管理驱动出问题

热门内容

本栏最新

纳德拉：微软不盲目追AGI，更看重AI技术的社会实际影响

Meta AI团队大调整，能否助其扭转Llama 4失利局面？

兴趣消费风起，什么值得买如何引领新潮流？

中国艾欧智能团队跨国夺冠，1.2万公里外精准遥控机器人展实力

真我Neo7 Turbo评测：透明设计亮眼，中端性能新标杆？

DeepSeek新模型低调上线，AI开发者沸腾：性能直逼OpenAI引热议

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.