百度商业研发团队近期公布了一项创新成果,正式推出了名为“MuseSteamer”的视频生成模型及其配套平台“绘想”,这一创新技术被标榜为全球首个支持中文音视频一体化生成的视频模型,为视频创作领域带来了全新的变革。
不同于传统AIGC视频制作中“先画面后配音”的常规流程,MuseSteamer实现了画面、音效与人声台词的同步创作,极大地提升了视频制作的效率与灵活性。这一技术的出现,无疑为视频创作者们打开了一扇全新的创作之门。
据百度研发团队透露,MuseSteamer在技术上取得了多项重大突破。它仅需一张图片,就能迅速生成长达10秒、分辨率高达1080p的电影级画质视频。视频中的人物表情细腻丰富,运镜效果专业流畅,这得益于团队对亿级中文多模态数据的深度挖掘、精细化视频结构化描述语言的开发,以及多目标强化学习等先进技术的运用。
为了满足不同创作者的需求,MuseSteamer推出了多个版本,包括Turbo、Lite、Pro及全系列有声版,这些版本各具特色,覆盖了从普通视频爱好者到专业影视制作机构的广泛需求。目前,Turbo版已在绘想平台上开放限时免费公测,吸引了众多创作者的关注和参与,而其他版本也计划在8月陆续上线。
MuseSteamer的推出,不仅为视频创作者提供了更为强大的技术支持,也预示着视频创作行业即将迎来一次全新的升级。这一创新技术将如何改变视频创作的未来,值得我们共同期待。