滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

谷歌Gemini Omni发布：跨模态交互升级自然语言指令轻松实现深度视频编辑

时间：2026-05-20 22:58:41 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在谷歌最新举办的开发者大会上，一款名为Gemini Omni的多模态人工智能模型正式亮相。这款模型突破了传统AI工具的单一输入限制，能够同时处理文本、图像、音频和视频四种形式的数据，并实现跨模态内容的生成与编辑。据开发团队介绍，该模型的核心优势在于其深度理解能力，可基于物理规律和跨领域知识库生成逻辑连贯的多媒体内容。

音频处理方面，初期版本已支持语音指令输入，开发团队透露正在研发环境音识别、音乐元素分析等扩展功能。首批上线的Gemini Omni Flash版本已集成到Gemini移动应用中，企业用户可通过专属API调用核心功能，个人开发者则需等待后续开放计划。

视频编辑能力成为该模型的最大亮点。用户通过自然语言描述即可完成复杂操作：从调整摄像机运动轨迹到修改场景光照条件，从替换画面元素到重构叙事逻辑。测试案例显示，系统能自动保持角色外观一致性，甚至根据已有情节推演后续发展。特别设计的数字分身功能允许用户创建个性化虚拟形象，并自然融入生成的视频场景中。

安全机制方面，所有输出内容均内置SynthID隐形数字水印，该技术可通过Google搜索引擎和Chrome浏览器进行溯源验证。开发团队强调，这项措施能有效区分AI生成内容与真实影像，为数字内容生态提供基础防护。

在应用场景拓展上，谷歌采取差异化策略：Google AI高级订阅用户可立即在Gemini应用和Google Flow协作平台使用完整功能；YouTube创作者则获得专项授权，可在Shorts短视频剪辑和Create专业创作工具中免费调用基础编辑模块。这种分层授权模式既保证了技术普惠性，又为专业用户保留了高级功能空间。

Google DeepMind项目负责人哈萨比斯在演示环节表示，Gemini Omni的跨模态理解能力标志着AI发展进入新阶段。通过整合语言、视觉和听觉的多维度认知，系统展现出接近人类综合信息处理的能力，这种技术突破为通用人工智能（AGI）研究提供了重要实践样本。

更多>同类资讯

2026科大讯飞学习机怎么选？三款高性价比机型评测，让孩子学习更高效！

科大讯飞学习机T30 Lite是一款专为各年龄段学生设计的平板，搭载了先进的AI技术，能够实现个性化学习计划，帮助孩子在学习中提高自主思考能力。这款学习机以AI精准备考为亮点，能够智能分析学生的学习习惯，提…

05-31

2026年科大讯飞学习机怎么选？两款热门型号助力孩子个性化学习与护眼双提升

接下来，我将为大家推荐2款口碑极佳的科大讯飞学习机，希望能帮助你找到适合孩子的那一款！这款学习机具备智能作业批改功能，能够实时反馈学习效果，帮助孩子养成良好的学习习惯，家长也能通过管控体系确保孩子专注学习而…

05-31

华为科技赋能越野新体验！全新猛士M817 37万起预售，智驾座舱双升级

全新猛士M817共实现296项实力进化，集原创雄魂美学、赛级同源动力、军工级全维安全、华为乾崑黑科技、百万级舒享于一身，全方位适配用户多元出行需求：五天工作日，可在职场与生活之间从容切换；两天休息日，携家人…

05-31

小米蓝牙音箱C开售啦！便携炫彩超长续航户外聚会氛围感拉满

05-31

SpaceX估值或下调引关注马斯克社交平台发文否认传闻

05-31

大湾区车展看小米汽车：从纯电到双线，开启成长新征程

05-31

AI浪潮下老牌硬件公司焕发新生：戴尔诺基亚等迎估值重排新机遇

05-31

特斯拉前员工集体“泼冷水”：FSD难获信任，Robotaxi遭直言拒乘

05-31

2026年编程圈怪象：程序员依赖AI成瘾，快写代码背后藏维护隐忧

我最近读了一篇很有意思的TechCrunch报道，讲的是2026年编程圈一个相当微妙的现象——程序员们集体"上瘾"了，确切地说，是对AI编码工具上瘾。程序员兼作家James Shore有篇在Hacker N…

05-31

华为“韬定律”突破制程限制，中国AI算力破局指日可待

05-31

哈佛毕业演讲“火力全开”：直言这一代使命是摧毁AI，引学生热烈欢呼

05-31

Meta计划明年测试AI吊坠，扩展眼镜线并推企业服务谋硬件部门转机

05-31

蓝色起源发射台遭重创：火箭爆炸致发射或中断半年，亚马逊计划受挫

05-31

小米YU7全系车身揭秘：钢铝混合“铠甲”加持，安全驾控舒适三不误

05-31

谷歌I/O大会牵手晶晨半导体，端侧AI芯片龙头如何开启新篇章？

05-31

点击查看更多 +

全站最新

2026科大讯飞学习机怎么选？三款高性价比机型评测，让孩子学习更高效！

2026年科大讯飞学习机怎么选？两款热门型号助力孩子个性化学习与护眼双提升

华为科技赋能越野新体验！全新猛士M817 37万起预售，智驾座舱双升级

乐道L60焕新登场：六大升级亮点全解析，预售开启引期待

蔚来携三大品牌亮相大湾区车展 ES9领衔新乐道L60预售亮点纷呈

沃尔沃EX90与ES90双旗舰纯电登场：北欧匠心之作，限时尊享价开启豪华新程

热门内容

本栏最新

2026科大讯飞学习机怎么选？三款高性价比机型评测，让孩子学习更高效！

2026年科大讯飞学习机怎么选？两款热门型号助力孩子个性化学习与护眼双提升

华为科技赋能越野新体验！全新猛士M817 37万起预售，智驾座舱双升级

大湾区车展看小米汽车：从纯电到双线，开启成长新征程

2026年编程圈怪象：程序员依赖AI成瘾，快写代码背后藏维护隐忧

小红书亮相上海网络视听创作者大会，共绘AI时代创作治理新画卷

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.

谷歌Gemini Omni发布：跨模态交互升级 自然语言指令轻松实现深度视频编辑

谷歌Gemini Omni发布：跨模态交互升级自然语言指令轻松实现深度视频编辑