ITBear旗下自媒体矩阵:

百度蒸汽机再升级:流式生成技术突破时长限制,AI长视频创作开启新纪元

   时间:2025-09-26 03:46:55 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

“多人对话音视频一体化生成”大模型百度蒸汽机(MuseSteamer)迎来重大技术突破,其最新版本正式推出通用AI长视频生成功能,用户可借此生成任意时长的AI视频内容,彻底打破传统AI视频生成5秒、10秒的时长限制。

此次升级的核心亮点在于两大技术突破:其一,通过流式生成技术实现视频“无限”时长生成,用户输入一张参考图和文本描述即可生成电影级质感的长视频;其二,首创生成过程中的交互式创作模式,用户可随时暂停生成并提交新的提示词(prompt),动态调整后续剧情走向。

在技术实现层面,百度蒸汽机采用自回归扩散模型,结合帧级噪声独立控制与动态时间步调度策略,突破传统扩散模型在长视频生成中的性能瓶颈。同时,依托商业体系强大的工程优化能力,通过模型参数压缩、窗口注意力机制优化等手段,将推理耗时降至近乎实时水平,确保长视频生成的流畅性与效率。

据项目负责人介绍,升级后的模型已实现理论上的无限时长视频生成能力,用户仅需输入基础素材即可生成包含多人对话、精准口型同步的复杂视频内容。例如,在官方演示中,模型成功生成30秒及超1分钟的连贯视频片段,画面质量与叙事逻辑均达到专业水准。

9月25日,百度商业体系商业研发总经理刘林与知名编剧田博通过直播连麦,首次对外解析技术细节。刘林强调,此次升级不仅解决了AI视频生成依赖首尾帧控制续写的局限,更通过“生成中可交互”功能赋予用户创作主导权。田博则指出,AI视频生成技术仅用一年时间便完成电影行业50年的技术演进,为编剧与内容创作者开辟了前所未有的想象空间。

从应用场景看,AI长视频生成技术显著降低了视频创作门槛,助力个人创作者产出更完整、优质的内容,同时为企业用户、影视及广告行业提供高效低成本的解决方案。目前,该技术已广泛应用于百度客户的营销创意中,知名视效指导姚骐曾使用蒸汽机2.0制作科幻短片《归途》,将制作成本压缩至数百元,验证了其商业化潜力。

作为全球首个中文音视频一体化生成模型,百度蒸汽机自今年3月首发以来持续迭代:5月登顶VBench-I2V图生视频榜首;7月推出Turbo版模型及C端创作平台“绘想”,实现画面、音效与人声台词的协同创作;8月完成音视频一体化升级,支持多人有声视频生成;如今再次突破时长限制,成为行业首个具备“无限”生成能力的通用AI视频模型。

数据显示,蒸汽机Turbo版上线两周注册用户量突破20万,单小时任务提交量达1.8万次,累计生成内容超200万条。据透露,该模型将于10月中旬进一步升级,新增实时交互长视频生成功能,涵盖可交互数字人、VR/AR视频内容及动态游戏世界生成能力,持续推动AI视频技术边界拓展。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version