阿里ATH创新事业部近日宣布,其自主研发的视频生成模型HappyHorse-1.0已在Arena.ai平台开启公开测试,目前正处于发布前的关键优化阶段。该模型凭借原生音视频同步生成技术,在视频生成领域引发广泛关注,预计将于两周后完成最终版本更新并正式上线。
据内部人士透露,HappyHorse-1.0将于4月30日向开发者开放API接口,同时已在社区推出早期体验通道,邀请用户参与功能测试与反馈优化。这一举措标志着阿里在多模态生成技术领域迈出重要一步,为视频创作行业提供全新解决方案。
在上周全球权威AI评测平台Artificial Analysis Video Arena的盲测中,该模型以匿名身份同时斩获文生视频和图生视频(无音频)双赛道冠军,超越字节跳动Seedance 2.0和快手可灵3.0等主流模型。评测数据显示,其在画面质量、动作连贯性及音频匹配度等核心指标上表现优异。
技术架构方面,HappyHorse-1.0采用150亿参数的40层单流自注意力Transformer架构,突破传统视频生成需要分阶段处理的局限。通过创新性的联合建模机制,模型可一次性完成画面生成与音频合成,输出直接带有同步声音的完整视频,彻底消除后期拼接需求。
该模型另一突破性功能是支持七种语言的唇形同步技术,涵盖英语、普通话、粤语、日语、韩语、德语及法语。经实测,在跨语言视频生成场景中,人物口型与语音的匹配准确率达到行业领先水平,为国际化内容创作提供有力支撑。
传统视频生成流程通常需要先制作无声视频,再通过独立模型添加配乐并调整口型,整个过程耗时较长且容易产生误差。HappyHorse-1.0通过端到端的生成方式,将原本需要多步骤完成的任务整合为单次前向推理,显著提升创作效率的同时保证输出质量。







