在AI视频生成技术加速向“精细化创作”演进的背景下,谷歌DeepMind与谷歌实验室近日联合推出新一代AI视频模型Veo 3.1,并对旗下AI创作平台Flow进行全面升级。此次更新引入了音频生成、镜头编辑及物体增删三大核心功能,标志着AI视频制作从“基础生成”迈入“专业导演”阶段。
据官方披露,Flow平台自上线以来已累计生成超2.75亿条视频,而Veo 3.1的推出将进一步推动AI视频创作向专业化发展。该模型在三个关键领域实现突破:其一,全链路音频生成技术可同步为视频添加环境音效、背景音乐及拟真声效;其二,通过首尾帧设定与参考图像导入功能,用户可精准控制镜头节奏与叙事走向;其三,强化光影渲染与动作细节,显著提升画面真实感。
谷歌DeepMind产品经理杰斯·加莱戈斯强调:“Veo 3.1首次实现了音画同步的叙事能力,让创作者能在AI视频中完整讲述故事,而不仅是生成片段。”目前,该模型已深度集成至Flow平台,用户可像专业剪辑师般进行多维度编辑操作。
在音频生成方面,Veo 3.1支持为不同场景自动匹配风声、水声、脚步声等环境音效,并可生成适配的背景音乐。其“素材转视频”功能允许用户同时导入多张参考图像,精准控制角色造型、场景风格及光影效果;“帧序列生成”功能通过输入首尾帧画面,自动生成中间过渡镜头;“续拍生成”功能则能基于前序片段最后一秒内容,实现分钟级长镜头的连贯创作。
平台新增的“视频修图”功能引发行业关注。其中,“插入元素”功能支持添加人物、物体甚至奇幻生物,AI会自动调整阴影与光线使其自然融入画面;“删除元素”功能(即将上线)则允许用户直接移除画面中的特定对象,AI将智能重建背景以实现无缝衔接。这些功能使AI视频创作从“一次性生成”转向“可迭代编辑”,更接近专业影视后期流程。
技术生态层面,Veo 3.1已同步接入Gemini API与Vertex AI平台,企业和开发者可直接在应用中调用该生成体系。这不仅巩固了Flow作为创作者工具的地位,更使Veo 3.1成为谷歌AI生态的核心视频引擎。
从应用场景看,该技术正在重塑多个行业的工作流程:创作者可通过参考图像与音频脚本构建完整短片;媒体机构可快速生成新闻过渡镜头与背景音效;游戏公司能高效制作叙事动画与CG预告片;教育及广告领域则可一键生成定制化教学视频与产品宣传片。
与OpenAI Sora的端到端生成模式不同,谷歌的Veo 3.1+Flow组合更接近“AI创意工作台”。若将Sora比作“AI摄影机”(输入文本生成视频),则Veo 3.1+Flow可视为集剪辑、调色、音效于一体的“AI影视工作站”。这种模块化创作模式使Flow兼具视频生成工具与创意平台的双重属性,被业界视为下一代Adobe Premiere与Midjourney的融合体。