滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

百度蒸汽机突破AI视频生成局限：实时交互、任意时长，重塑创作新体验

时间：2025-10-16 23:16:46 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

百度搜索近日对文心助手的AIGC创作能力进行了全面升级，新增AI图片、视频、音乐、播客等八大创作模态，并支持一键调用多工具解决多样化场景需求。此次升级的核心亮点在于视频生成模型“百度蒸汽机”的技术突破，其长视频生成能力与实时交互功能引发行业关注。

百度蒸汽机模型自今年5月进入AI生视频赛道以来，便以VBench-I2V全球榜单第一的成绩崭露头角。此次升级中，该模型突破了传统AI视频生成10秒左右的时长限制，支持通过单张图片与文本提示生成任意时长的长视频，并首次实现“实时交互”功能——用户可在生成过程中随时暂停、修改提示词，调整剧情走向。例如，在演示沙漠赛车视频生成时，模型可根据用户需求实时生成不同比赛结果（银色车或黄色车胜出），现场效果赢得掌声。

技术层面，百度商业研发首席架构师李双龙透露，升级后的蒸汽机模型引入自回归扩散模型（Autoregressive Diffusion Models），结合自回归的长序列能力与扩散模型的一致性优势，通过流式滑窗架构实现低成本无限外推与实时生成。用户可实时预览生成内容，无需等待完整视频输出。同时，模型通过全局规划与局部参考优化，解决了长视频生成的连续性问题，并依托工程优化将推理耗时压缩至接近实时水平。

在应用场景上，蒸汽机模型的长视频生成能力已受到营销与娱乐领域用户的青睐。百度副总裁赵世奇与陈一凡在采访中表示，受Sora 2等国际产品启发，百度正通过大模型技术降低AI生视频的使用门槛，丰富用户玩法。目前，用户可通过百度搜索、百度APP或绘想平台（https://huixiang.baidu.com）体验新功能，创意视频生成时长限制为1分钟，但技术层面支持无限时长生成。

除视频生成外，蒸汽机模型还拓展了数字人与开放世界场景。其支持的实时交互数字人可实现沉浸式互动，应用于AI导购、教育陪伴等领域；开放世界生成功能则允许用户自由创建游戏地图、虚拟旅游场景或宇宙空间。百度商业体系商业研发总经理刘林指出，降低创作门槛后，AI生成内容的质量与完整性显著提升，有助于创作者变现。

据统计，目前每日有千万量级的AIGC内容通过文心助手创作产生。李双龙透露，蒸汽机模型的下一步技术迭代将聚焦“有声一体化、多人互动与长视频优化”，进一步拓展创作边界。

更多>同类资讯

Cursor“套壳”变合作，Kimi接棒DeepSeek成全球AI开源新焦点

03-22

英伟达智驾：从技术突破到生态野心，自动驾驶未来已来？

03-22

Nothing Phone(4a)深度体验：褪去锋芒，以独特设计在中端市场独树一帜

03-22

宇树科技冲刺科创板：“全球第一”光环下，机器人商业化能否经受住考验？

03-22

AI或成科研新引擎？哈佛学者预言：人类智能遇瓶颈，AI将催生万名“爱因斯坦”

03-22

美国自研AI光速塌房，扒开底层模型全是中国kimi

03-22

昇腾950PR加持！华为Atlas 350上市：算力是H20的近3倍

03-22

新一代SU7上市首个周末雷军北京巡店：亲自讲解新车

03-22

Cursor套壳、黄仁勋坐上宾，DeepSeek的光环现在都是Kimi的了

03-22

Nothing Phone(4a)体验：不再“一身反骨”

03-22

官宣！马斯克开造2nm芯片

03-22

谷歌推出Antigravity编码代理

03-22

英伟达GTC描绘万亿美元市场，但华尔街反应冷淡

03-22

英伟达的智驾野心，藏不住了

03-22

百度网盘全新升级：一键部署AI小龙虾开箱即用

03-22

点击查看更多 +

全站最新

京东JD FASHION亮相中国国际时装周：以自研科技面料引领服饰品质新潮流

OpenClaw爆火，AI Agent时代真的来了！

股价一年狂飙，锂盐巨头仍被低估？

开放式耳夹耳机怎么选？虹觅Clip Pro、漫步者QQ夹、声阔C30i实测对比，帮你精准避坑！

传统批发企业破局之道：12个月线上突围，营收跃升的实战策略全解析

一个时代落幕？顶级游资大佬向量化投降！

热门内容

本栏最新

传统批发企业破局之道：12个月线上突围，营收跃升的实战策略全解析

易车汽车之家双认证！新一代小米SU7续航实测惊人，告别续航焦虑！

小米汽车专利首战“小厂”来袭！三项外观专利遭挑战，下周口审揭晓结果

华为896线程激光雷达加持，阿维塔12价格公布，市场前景几何？

比亚迪ATTO 3 Evo英国上市：入门版加速5.5秒，高配版3.9秒破百

AI本为赋能利器，却成裁员借口？黄仁勋直指：是管理层短视无能

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.