百度商业研发团队近期宣布了一项重要创新,于7月2日正式推出了名为“MuseSteamer”的自研视频生成模型及其配套的创作平台“绘想”。这一突破性技术被标榜为全球首个能够实现中文音视频一体化生成的视频模型,标志着视频创作流程的一次重大革新。
传统AIGC视频制作往往遵循“先画面后配音”的模式,而MuseSteamer则打破了这一常规,实现了画面、音效与人声台词的协同创作。这一技术的问世,无疑为视频创作者提供了更为便捷和高效的创作工具。
据百度商业研发团队介绍,MuseSteamer在技术上实现了多项突破。它能够根据一张图片,快速生成长达10秒、分辨率为1080p的电影级画质视频。视频中的人物微表情和运镜效果均达到了专业影视水准,这一能力得益于亿级中文多模态数据的清洗、精细化视频结构化描述语言,以及多目标强化学习等技术的优化。
为了满足不同创作者的需求,MuseSteamer模型家族推出了多个版本,包括Turbo、Lite、Pro及全系列有声版。这些版本覆盖了从普通创作者到专业影视机构的广泛需求,为各类用户提供了定制化的解决方案。目前,Turbo版已在绘想平台上开启限时免费公测,而其余版本则计划在8月陆续开放。
MuseSteamer的推出,不仅为视频创作者提供了更为强大的技术支持,也预示着视频创作行业将迎来一次新的变革。随着技术的不断进步和应用场景的不断拓展,MuseSteamer有望成为未来视频创作领域的重要推手。