一场关于AI视频生成领域的变革正在悄然酝酿。近日,谷歌即将在I/O大会上亮相的全新视频模型Gemini Omni引发科技圈热议,其提前曝光的演示视频与功能细节,让行业对AI视频生成技术的认知被彻底刷新。
最令人惊叹的莫过于一段“教授黑板推导三角恒等式”的演示视频。画面中,教授手持粉笔在黑板上书写数学证明,同时用口语同步讲解推导步骤。这一场景的难点在于,AI需同时保证文本准确性、推导连贯性以及笔迹自然度。此前,Sora等模型生成的文字常出现“鬼画符”现象,完整数学推导更是难以实现。而Gemini Omni仅凭一句提示词,便生成了公式正确、笔迹流畅、讲解同步的视频,其技术突破让许多专业人士直呼“难以置信”。
Gemini Omni的颠覆性不仅体现在生成能力上,其实时编辑功能更被视为“杀手锏”。根据泄露的演示,用户可通过对话直接去除视频水印,且画面毫无修改痕迹;在物体替换场景中,仅需语音指令即可精准替换视频中的物体,系统会自动适配光影、遮挡关系等细节。例如,将视频中的意大利面替换为“奶油浓汤”,整个过程瞬间完成,效果天衣无缝。有创作者评价,仅“去水印”这一功能,就足以改变行业规则。
技术细节方面,Gemini Omni的模型ID被曝光为“fbard_eac_video_generation_omni”,支持10秒时长、1280x720分辨率的视频生成。与OpenAI的Veo不同,Omni深度集成于Gemini生态中,具备更强的提示理解与推理能力,可同时处理文本、图像、音频、视频的多模态输入输出。它还支持风格化输出,如动漫风格的视频中,蓝色火焰特效、打斗动作线条等细节均达到专业动画师手绘水平。
然而,早期测试显示,Gemini Omni的额度消耗较快,这或许与其强大的功能相关。与此同时,行业格局正因这一技术突破发生微妙变化。两周前,OpenAI的Sora App正式停服,其短暂的生命周期以商业失败告终。据披露,Sora的推理成本高达每天100万至1500万美元,用户留存率不足8%,应用内收入仅约210万美元,连算力成本都难以覆盖。相比之下,Gemini Omni的曝光时机堪称“精准卡位”,其演示效果与Sora形成鲜明对比——在动漫打斗场景中,Omni的视频流畅度远超Sora,后者特效则显得混乱不堪。
更值得关注的是,此次泄露的信息显示,谷歌不仅推出了Gemini Omni,还有多款未发布的“全线模型”被意外推送至生产环境API,包括Gemini 3 Flash、3.1全系列(Pro、Flash Image、Lite、TTS)以及高保真音频生成模型Lyria 3 Pro。其中,Omni的原生多模态视频模型将针对核心模型推出专门的Agent版本,进一步拓展AI的应用边界。
随着5月19日谷歌I/O大会的临近,行业对Gemini Omni的正式亮相充满期待。这场技术竞赛中,谷歌能否凭借多模态集成与实时编辑功能重新定义AI视频生成标准,而其他科技巨头又将如何应对,答案即将揭晓。









