谷歌正式推出了备受期待的Gemini Omni,这款新型生成式人工智能模型突破了传统单一模态的限制,能够处理文字、图像、视频等多种输入形式,并生成相应类型的输出内容。尽管此前外界普遍猜测其可能专注于视频生成领域,但谷歌将其定位为更广泛的多模态交互平台,视频生成仅是其中一项核心功能。
在发布会上,DeepMind首席执行官德米斯·哈萨比斯通过多个案例展示了该模型的强大能力。例如,用户上传一张个人照片后,Omni可以快速修改背景环境或调整艺术风格;简单的几何图形输入能被转化为复杂的视觉场景,如将圆圈转化为黑洞或渲染不同风格的黄昏漫步画面。这种灵活性源于模型对多种生成式技术的整合,包括图像生成工具Nano Banana、视频生成引擎Veo以及世界模拟模型Genie。
教育领域的应用案例尤为突出。当用户输入“制作一段蛋白质折叠的动画解说”时,Omni直接生成了包含α螺旋和β折叠结构演示的教学视频,而非传统的文字说明。这种能力得益于模型对科学概念的深度理解,以及将抽象知识转化为可视化内容的技术突破。测试中,模型甚至能根据“黏土动画风格的蛋白质折叠解说”这类复杂提示词,生成符合要求的动态影像。
视频编辑功能是Omni的另一大亮点。用户可通过自然语言指令对素材进行多轮修改,例如要求“当人物触摸镜子时,让镜面呈现液体涟漪效果,并将手臂材质改为反光金属”。实际演示显示,模型在保留原始动作的同时,精准替换了物理特性和材质表现。这种交互方式延续了Nano Banana图片编辑的逻辑,但扩展到了动态视频领域。
物理模拟能力代表了该模型的技术高峰。在演示中,Omni准确模拟了弹珠在连锁反应轨道上的运动轨迹,展现出对重力、动能等物理现象的深刻理解。更复杂的测试要求模型制作“字母表物品视频”,即每个英文字母对应一个非常规物体(如C对应水豚、D对应迪斯科球)。模型不仅完成了26个物品的对应展示,还协调了画面节奏、字幕样式、帧率要求(每物品9帧,24FPS)及背景音乐,最终以“THE END”字样收尾。
目前,Gemini Omni Flash已通过Gemini应用和Google Flow平台向AI Plus、Pro和Ultra订阅用户开放。网页端提供18种预设风格,包括80年代MV、蒙太奇、美漫等,Pro账户每日可生成3次视频。用户测试显示,输入“男性汽车博主穿JK制服梳双马尾在汽车前”的提示词后,系统快速生成了符合要求的风格化视频。
这款模型的推出标志着视频创作门槛的进一步降低。手机拍摄的素材、参考图片或音乐片段均可成为可编辑的原始材料,用户通过自然语言对话就能完成复杂修改。这种变革不仅影响内容生产效率,更将重新定义真实性验证、版权归属及平台治理等关键问题。






