ITBear旗下自媒体矩阵:

谷歌发言人确认:Gemini AI视频展示并非实时完成

   时间:2023-12-09 14:12:31 来源:ITBEAR编辑:芳华 发表评论无障碍通道

【ITBEAR科技资讯】12月9日消息,谷歌近日在一次采访中向媒体透露,他们之前发布的大型语言模型Gemini的演示视频实际上并非实时录制。这一消息引发了业界的关注,因为视频看起来极其先进,显示了Gemini模型在处理各种任务时的能力。

视频中展示了一系列引人注目的场景,例如Gemini模型能够在一个塑料杯中发现藏着的纸团,甚至能够识别出一幅“点线相连”的图画中描绘的是一只螃蟹。然而,据谷歌发言人向外媒透露,这些都是通过镜头捕捉的静止图像帧和文本提示来“拼凑”而成的。换句话说,Gemini模型只能对输入的提示和静态图像做出反应,而非实时处理。同样,视频中展示的用户与Gemini之间的语音互动实际上也是后期配音完成的。

据ITBEAR科技资讯了解,视频中的其他元素,比如人物的对话、绘画、展示物品,甚至魔术表演,似乎都是为了制作这段演示视频而特别安排的。谷歌在其官方YouTube频道上的视频描述中也提到,为了演示的目的,视频中的延迟已经被减少,而Gemini的输出也被缩短,以使内容更加简洁。这暗示了在现实应用中,Gemini模型响应用户输入的时间可能会比演示视频中看起来的要长。

谷歌DeepMind的研究副总裁兼深度学习负责人Oriol Vinyals对视频的目的做了进一步阐述。他指出,视频展示了使用Gemini模型构建的多模态用户体验可能的样子,并旨在激发开发者的创新思维。Vinyals强调,视频中的所有用户提示和输出都是真实的,但为了简洁起见,进行了缩短处理。此外,他还提到,视频中展示的是更高级的Gemini Ultra模型。

此前有报道称,谷歌宣称Gemini Ultra在32个广泛使用的学术基准测试中,在30个测试中都展现了超越当代的领先表现。这些基准测试被认为是大型语言模型领域最常用、最广泛的测试之一。其中,Gemini Ultra在大规模多任务语言理解(MMLU)测试中以90.0%的高分超越了人类专家。这一测试涵盖了包括数学、物理、历史、法律、医学和伦理等多达57个学科。

除此之外,Gemini Ultra还在新的MMMU基准测试中展示出了59.4%的领先水平。MMMU基准测试覆盖了一系列需要深入思考的多模态任务,涵盖了多个不同的领域。这一表现再次证明了Gemini Ultra在大型语言模型领域的先进性和多功能性。

谷歌还计划在明年初推出全新升级的 Bard Advanced,这将使用户能够更好地体验到Gemini Ultra的最佳模型和功能。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  网站留言  |  RSS订阅  |  违规举报  |  开放转载  |  滚动资讯  |  English Version