谷歌I/O大会召开前夕,一款名为Veo 4(或称Gemini Omni)的AI视频生成工具引发行业震动。据爆料,该工具突破传统短视频生成框架,具备多机位场景切换能力,可实现同一场景下不同视角的连贯叙事,标志着AI视频技术从"单镜头拍摄"向"导演级叙事"的跨越式发展。
技术突破集中体现在空间逻辑构建上。传统AI视频生成工具如Sora、Runway Gen-4等,均采用单摄影机连续位移模式,而Veo 4通过物理一致性、空间一致性、时间一致性的三重优化,实现了服装细节、物体位置、人物表情等要素在不同机位间的精准同步。爆料者Pankaj Kumar指出,这种技术革新相当于将导演的机位调度能力转化为模型算法权重,使AI从"画面绘制者"升级为"叙事架构师"。
音频生成领域同样取得实质性进展。继Veo 3实现原生音频同步后,新版本进一步拓展功能边界,支持对话、环境音、情境化背景音乐的全流程生成。内部测试显示,其音质较前代有明显提升,背景音乐生成模块可根据画面内容自动匹配曲风与节奏,形成完整的视听叙事链条。这一突破使AI视频生成距离"成片输出"仅剩剧本创作环节。
技术参数方面,泄露信息显示Veo 4支持最长9秒的720p视频生成,虽未达到行业预期的15秒标准,但爆料者认为这主要受限于算力配置。谷歌内部文档透露,公司正聚焦效率优化,未来可能通过模型压缩或硬件升级突破时长限制。部分测试样本显示,多机位切换场景已具备商业级流畅度,仅在复杂动作衔接处存在细微卡顿。
行业格局因Sora的退场迎来重构契机。OpenAI旗下Sora应用因高昂的推理成本(日均100万-1500万美元)和低迷的用户留存率(30天留存不足8%),于4月26日正式停服。其商业失败与Veo 4的技术突破形成鲜明对比,谷歌选择此时释放重磅消息,被视为对AI视频生成市场的战略接管。数据显示,Sora生命周期内总收入仅210万美元,远不足以覆盖运营成本。
泄露事件还牵出谷歌更庞大的AI布局。生产环境API意外曝光的文档显示,除Veo 4外,谷歌将同步推出Gemini 3Flash、3.1全系列模型,以及高保真音频生成工具Lyria 3 Pro。最引人注目的是Omni模型Agent版本的规划,该框架拟将视频生成、音频处理、智能代理等功能深度整合,形成覆盖创作全流程的AI工具链。这印证了谷歌CEO皮查伊去年提出的"将Gemini嵌入所有核心产品"的战略构想。
技术伦理争议随之浮现。多机位生成能力虽提升叙事效率,但也引发对影视行业就业结构的担忧。有导演指出,AI对机位调度的自动化处理可能削弱人类创作者的独特价值。谷歌方面暂未回应此类质疑,但技术文档强调"工具属性",称AI旨在辅助而非取代人类创作。随着I/O大会临近,这场关于技术边界与创作主权的讨论预计将持续发酵。










