在近期举办的谷歌 I/O 开发者大会上,谷歌正式揭晓了其最新力作——Gemini Omni 模型,这一发布标志着人工智能领域又迈出了重要一步。作为Gemini模型家族的巅峰之作,Gemini Omni被赋予了“全能”的寓意,其在处理多模态信息方面的能力达到了前所未有的高度。

Google DeepMind的掌门人、诺贝尔奖得主哈萨比斯(Demis Hassabis)在发布会上介绍,Gemini Omni在文字、图像、视频、音频等多种信息的处理上,展现出了极高的流畅性和深度理解能力。这一模型不仅打破了传统AI在单一模态上的局限,更实现了跨模态的无缝衔接,为用户提供了更为丰富和立体的交互体验。
尤为引人注目的是,Gemini Omni宣称具备“从任何输入生成任何输出”的神奇能力。用户只需简单的一句话,就能轻松改变视频中的角色、背景等元素,实现对话式编辑的革命性突破。这一特性无疑将极大地提升内容创作的效率和灵活性,为创意产业带来新的发展机遇。
除了Gemini Omni外,谷歌还同步推出了科研版Gemini模型——Gemini for Science。这一模型专为科研人员设计,能够自动追踪最新论文动态,将研究目标迅速转化为可用的代码,甚至生成新的假设,为科研工作提供强有力的支持。
值得一提的是,谷歌还宣布了Gemini Omni家族的首款模型——Gemini Omni Flash的发布。该模型即日起将在Gemini App、Google Flow以及YouTube Shorts等平台上亮相,未来还将推出API服务,进一步拓展其应用场景和影响力。









