滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

京东开源新框架JoyAI-Echo：让AI长视频告别“变脸漂音”时代

时间：2026-06-07 09:42:45 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在AI生成视频领域，短片段的创作已逐渐成熟，但长视频生成始终面临诸多挑战。角色一致性、声音稳定性、生成效率以及画面质量等问题，长期制约着长视频的规模化应用。近日，一款名为JoyAI-Echo的开源长音视频生成框架正式发布，凭借其创新的技术方案，成功跻身全球长视频生成领域的前列。

长视频生成的核心难点在于保持角色和声音的跨镜头一致性。传统模型依赖上下文窗口保存历史信息，但随着视频长度增加，早期内容会被后续信息稀释，导致角色形象和声音逐渐失真。JoyAI-Echo通过引入跨模态音视频记忆库，解决了这一难题。该记忆库不仅记录角色的视觉特征，还同步绑定其音色信息，确保在多镜头、多场景切换中，角色形象和声音始终保持稳定。系统会智能保留关键镜头和最新生成的内容，既不会遗忘初始设定，也能紧跟剧情发展。

生成速度是长视频落地的另一大瓶颈。JoyAI-Echo团队设计了一套记忆驱动的后训练流程，通过监督微调、强化学习和分布匹配蒸馏技术，将复杂模型的能力压缩到高效推理模型中。其中，分布匹配蒸馏技术（DMD）尤为关键，它使推理速度提升了约7.5倍。这一优化让原本需要大量扩散步骤的生成任务，得以在更少的推理步骤中完成，同时保持接近原始模型的生成效果。

清晰度方面，JoyAI-Echo摒弃了传统的“视频生成+离线超分”两阶段架构，创新性地将超分能力直接融入生成链路。系统先生成720P视频和音频，再通过轻量化实时超分模块一步完成高清增强，直接输出1K甚至2K分辨率的结果。这一设计不仅提升了画面细节和音频质量，还避免了额外推理流程带来的延迟，让高清输出与流畅体验得以兼顾。

为满足长视频创作的实际需求，JoyAI-Echo还引入了Director Agent功能，相当于为视频模型配备了一位AI导演。用户只需用自然语言描述需求，Agent便能自动拆解为剧本、角色、场景和镜头规划。在生成过程中，Agent会检索历史镜头信息，确保新内容与上下文一致；若发现偏差，可精准定位问题镜头并局部重生成，无需推倒重来。这种交互式编辑模式，让长视频创作如同与导演对话般便捷。

评测数据显示，JoyAI-Echo在长视频生成的多项指标上表现优异。在用户盲测中，其视频画面偏好度达63.6%，音频质量偏好度高达81.7%，提示词遵循和IP一致性偏好度分别为80.6%和59.4%。即使与人像短视频领域的主流模型相比，JoyAI-Echo仍以58.8%的视觉美学偏好度占据优势。这些成果标志着长视频生成技术正从技术演示向实际生产工具转变。

作为一款开源框架，JoyAI-Echo降低了长视频生成的技术门槛。开发者、创作者和研究者可共同参与验证、调用和迭代，推动行业技术加速进步。其高一致性、可控性和可迭代性，为虚拟IP故事、数字人内容、品牌营销视频、教育课件、游戏动画等场景提供了新的创作可能。当稳定记忆、实时交互和高效生成成为现实，AI长视频正逐步从实验室走向实际应用。

项目代码已开源至GitHub，项目主页同步上线，供全球开发者探索与使用。

更多>同类资讯

抖音电商上线“肖像保护功能” 协同治理AI侵权守护电商生态安全

未经授权利用AI合成或模仿他人肖像、声音，在短视频或直播间中进行商品推广；截取达人视频或直播片段，拼贴商品信息，形成“达人同款”“本人直播间卖过”等误导性表达……电商场景中的侵权仿冒，不限于传统意义上的“假…

07-03

上半年630款新车涌入市场，新能源车成主力，月销过万车型仅33款

07-03

阿里云秒悟Meoo上线夜间计划

07-03

Seedance 2.5预计7月6日上线体验中心，一周后开放API

07-03

亚马逊低轨卫星网络进入关键节点有能力点亮“星链”对手

07-03

消息称三星 Galaxy S27 系列智能手机将标配防窥显示屏

07-03

物理AI浪潮下 Momenta携新故事冲刺IPO 能否赢得市场青睐？

07-03

阿里拟整合三大AI Agent产品 QoderWork领衔打造企业生产力新利器

07-03

爆料：2nm骁龙8E6处理器进入测试阶段或为小米REDMI 2027年性能旗舰新机

07-03

荣耀MagicOS七月更新亮点多：动效升级行业首发三端120Hz投屏

07-03

Android 17原生应用锁虽未上线谷歌仍在测试更新中稳步推进开发

07-03

阿里整合QoderWork等三大Agent产品线，“90后”陈宇森操盘企业AI新篇

07-03

告别提示词时代：Agent Loop如何重塑人与AI协作新模式？

07-03

智元创新上海再落子：成立智能设备公司深耕人工智能与机器人领域

07-03

从黄仁勋预言到VLX实践：流式多模态如何解锁物理AI量产新路径

区别于传统模型“采集-上传-离线处理”的路径，VLX系列面向物理世界中持续涌入的视频流，实现毫秒级实时感知，并首次在端侧打通“持续感知→精准定位→行动决策”的完整闭环。AI PC领域：PC上的端侧AI长期停…

07-03

点击查看更多 +

全站最新

哈苏与Capture One强强联手，摄影师可享原生工作流及专属影像优化体验

安克创新成功登陆港交所主板完成A+H两地上市募资投向六大方向

华为汽车顶棚外观专利亮相：余承东等设计，提升空间利用率可存投影幕布

雅马哈“串并联混合动力系统”专利曝光：双电机搭配单缸引擎，未来能否量产引期待

燃油时代的机械诗篇：那些偏执狂们写给钢铁的心跳与浪漫

六年驾车电瓶养护误区终破除！实测揭秘：适度充电才是护车关键

热门内容

本栏最新

宇树科技73天闪电过会科创板人形机器人赛道迎估值重构与投资新机遇

TikTok天使投资人领投，灵珠获天使轮融资，开启全民AI创作新时代

灵珠获天使轮融资：降低AI创作门槛，助力非技术人员实现应用开发梦

汽车之家“芝士车管家”公测启航以AI之力重构一站式车生活服务新生态

京东与长安汽车携手：数智赋能推动汽车制造服务升级新实践

春水堂仿真人形伴侣机器人开启预售，聚焦陪伴场景，1.5万元级能否走进生活？

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.