全球视频生成领域迎来新一轮技术竞争,OpenAI与国内科技企业接连推出创新产品,推动行业进入实时交互与长视频生成的新阶段。10月1日,OpenAI发布Sora 2视频生成应用,引发行业关注;半个月后,百度宣布其视频生成模型“蒸汽机”完成重大升级,首次实现AI长视频实时交互生成功能,成为国内首个突破传统10秒时长限制的模型。
据百度副总裁陈一凡介绍,升级后的蒸汽机模型依托流式视频技术,不仅支持无限时长生成(产品层面根据用户场景设置限制),还实现了生成速度超越国内主流模型。该模型提供图生视频、视频生视频双模式:在图生视频中,用户可实时查看推理过程,随时暂停或修改提示词以控制剧情、画面和转场;在视频生视频中,用户可对素材进行续写或任意帧改写,并实时预览结果。
定价方面,蒸汽机延续首发策略,Turbo有声版价格为2.5元/秒(首发双周优惠1.4元/5秒),C端用户可通过“绘想”平台会员充值,最低41元/月起。对比国际市场,Sora 2 API定价为0.1美元/秒起,C端用户需订阅ChatGPT Plus(20美元/月)或Pro(200美元/月)会员。
除长视频生成外,蒸汽机还推出两大创新功能:可交互数字人与开放世界动态构建。数字人支持沉浸式双向互动,可应用于AI导购、教育、陪伴等场景;开放世界则允许用户在AI生成的游戏地图、旅游景点或宇宙空间中自由探索。百度工作人员表示,这些功能将推动内容消费从“被动接收”转向“共同创造”,甚至催生新型艺术形式与商业生态。
国际市场上,谷歌在百度蒸汽机升级当晚推出Veo 3.1版,重点提升音频输出、精细化编辑控制及图像转视频效果,并新增视频扩展、首尾帧补过渡、图片引导风格控制三大功能。陈一凡指出,当前视频生成赛道技术竞争激烈,短期优势易被超越,企业需通过执行力和生态构建能力保持领先。
产品化与生态建设的重要性日益凸显。例如,Sora 2推出独立iOS App,支持用户浏览、分享优质生成作品,甚至与其他用户共创,引发其入局社交内容的讨论。对此,百度商业研发总经理刘林表示,蒸汽机暂无独立App计划,但未来可能作为发展方向,目前新技术均接入百度App。
同期,百度搜索宣布全面升级文心助手AIGC创作能力,支持AI图片、视频、音乐、播客等8种模态创作,并打通全模态生成。用户可通过百度首页进入文心助手,每日产生千万量级AIGC内容。以视频生成场景为例,用户输入描述后,AI可自动完成3分钟故事片的情节设计、角色塑造、场景搭建、镜头运镜及声音配乐全流程。文心助手还集成“一句话写歌”“MV制作”等30余种特效玩法,后续将上线音乐数字人分身功能。
在数字人领域,百度搜索发布行业首个开放式实时互动智能体,支持用户与持证真人专家的数字分身进行1v1对话,提供法律、情感、旅游等场景的专业陪伴与咨询服务。该功能基于百度数字人技术、多模态模型及多智能体协作实现。