字节跳动近日推出的音视频生成模型Seedance2.0在科技圈引发热议,特斯拉创始人马斯克在社交平台X上直言其发展速度超出预期。与此同时,国内科研领域传来新突破——上海创智学院联合模思智能团队发布了国内首个开源音视频同步生成模型MOVA,填补了该领域的技术空白。
这款被定位为"学院派"的模型与商业化产品形成鲜明对比。项目负责人邱锡鹏教授在接受专访时透露,MOVA支持最长8秒、720p分辨率的视频生成,而Seedance2.0已实现15秒时长与2K分辨率。尽管在单段生成效果上存在差距,但MOVA选择完全开源的技术路线,包括360p、720p基础模型及全链路组件,允许二次开发、本地部署和学术研究。
"开源生态建设比短期技术领先更重要。"邱锡鹏强调,当前国际主流模型普遍采用闭源策略,技术细节不公开。MOVA团队不仅开源核心代码,还公开了数据合成、模型训练等关键技术路径,为中小团队提供低成本解决方案。这种开放理念延续了该团队2023年开源对话模型MOSS的传统,当时MOSS成为国内首个支持多插件的开源对话系统。
技术实现层面,MOVA采用混合专家架构平衡生成质量与推理效率。邱锡鹏坦言,音视频模型开发面临双重挑战:数据规模远超文本模型,且训练所需的基础设施尚不成熟。项目突破得益于产学研协同创新——上海创智学院通过"研创学"融合模式培养学生实战能力,模思智能则攻克了数据工程领域的关键技术瓶颈。
据研发团队披露,MOVA1.5版本将于近期升级,性能指标将进一步提升。当前行业焦点正从基础功能实现转向模型智能提升,邱锡鹏指出,音视频领域尚未发现类似文本领域的规模定律,即单纯增加数据量未必能显著提升模型智能。这成为制约行业发展的核心命题。









