谷歌近日悄然上线了新一代视频生成模型Veo 3.1,在AI视频生成领域掀起新一轮竞争。这款被视为Sora 2有力竞争者的产品,虽未带来颠覆性突破,却因多项功能与国内产品的相似性引发关注。
目前Veo 3.1提供标准版与快速版两种模式,普通用户可通过Gemini应用或Flow平台体验,开发者则能通过API接口调用核心功能。值得注意的是,该模型在视频生成质量上实现了显著提升,最高支持1080p分辨率输出,画面细节与清晰度达到专业级水准。相比之下,同期竞品Sora 2的720p输出能力显得稍显落后。
在功能创新方面,Veo 3.1引入了多项实用特性。其中最受关注的当属参考图定角色功能,用户可上传最多三张图片作为角色特征参考,有效解决多镜头切换中的人物一致性难题。这项技术虽非首创,但相比OpenAI Sora 2的缺失状态,仍显示出谷歌的技术跟进速度。不过国内某知名AI视频平台早已支持四张参考图输入,在功能深度上更胜一筹。
音频生成能力的升级是另一大亮点。模型现在能同步生成与画面匹配的环境音效,从雨滴敲击声到脚步回响,再到自然对话的语音表现,都呈现出更强的真实感。但考虑到Sora 2在此领域的先发优势,这项改进更多被视为技术追赶而非突破。
连续生成功能解决了短视频创作的连贯性问题。用户可基于前段视频的最后两秒内容继续扩展,最长可生成超过一分钟的完整片段,背景音乐与画面过渡自然流畅。这种"接龙式"创作模式同样出现在国内产品中,显示出技术发展的趋同性。
首尾帧控制功能为创作者提供了更精准的画面控制手段。通过设定起始帧与结束帧,模型能自动补全中间过渡画面,包括光线变化与音效配合。这种技术在国内多个AI视频平台上已有成熟应用,谷歌的加入进一步验证了其市场需求。
在用户体验设计上,谷歌采取了差异化策略。普通用户每次生成需消耗20积分,初始账户仅提供单次免费机会,后续使用需付费升级。这种商业模式与国内某平台形成鲜明对比——后者宣布在特定时间段内提供完全免费的Veo 3.1使用权限,且不附加任何水印限制。
开发者文档显示,通过API调用可实现更复杂的创作需求。用户不仅能输入文字指令,还可上传图片甚至现有视频作为创作素材,这种多模态交互方式为专业创作开辟了新可能。快速版模式虽默认生成720p视频,但支持付费升级至1080p,显示出谷歌在商业变现上的谨慎探索。