谷歌近日震撼发布其最新人工智能成果——Gemini 2.5 Deep Think,这一模型在逻辑推理领域展现出了前所未有的实力。
据悉,Gemini 2.5 Deep Think源自今年国际数学奥林匹克(IMO)竞赛中表现出色的模型变体。在近期的高级版测试中,该模型成功解答了IMO六道题中的五道,以35分的总成绩(满分42分)达到了金牌水准。尽管解决复杂数学问题需耗费数小时,但新发布的版本在日常应用中显著提升了速度与易用性,且在2025年IMO基准测试中仍保持了铜牌级别的表现。
早在今年5月的I/O开发者大会上,谷歌便对Gemini 2.5 Deep Think进行了初步展示。新版本带来了诸多“重大改进”。在编程、科学、知识及推理等领域的基准测试中,Gemini 2.5 Deep Think展现出卓越性能,不仅在LiveCodeBench V6测试中拔得头筹,还在Humanity’s Last Exam中领先其他不使用工具的模型,如OpenAI o3和Grok 4。
Gemini app中的Deep Think模型,凭借独特的思考技巧,能够提供更详尽、更具创意与周到的回答。它不仅能够助力数学家测试数学猜想,还能在Web开发任务中提升设计的美观性。
Deep Think支持多种输入方式,包括文本、图像、音频和视频,且拥有1M tokens的上下文窗口,输出长度可达192K tokens。其工作原理基于谷歌的并行思维技术,能够同时生成并思考多个想法,随时间推移不断修改或整合,最终得出最佳答案。通过延长推理或“思考时间”,谷歌为Gemini提供了更多探索不同假设的机会,为复杂问题寻找创造性解决方案。
谷歌还开发了创新的强化学习技术,鼓励模型利用扩展的推理路径,使Deep Think成为更加出色且直观的问题解决者。Deep Think擅长解决需要创造力、战略规划与逐步改进的问题,如迭代开发和设计、科学和数学发现以及算法开发和代码编写等。
目前,Deep Think仅向最高级别的Google AI Ultra订阅者开放,订阅费为每月249.99美元(约合人民币1803元)。它能够自动与代码执行和谷歌搜索等工具配合使用,产生更长的响应。同时,达到IMO金牌水平的Deep Think模型正在接受进一步测试,并将向一小部分数学家和学者分享,以辅助其研究工作。谷歌计划根据这些反馈来完善该模型的未来版本。
谷歌正积极筹备在未来几周内,通过Gemini API向一组受信任的测试人员发布带和不带工具的Deep Think,旨在更深入地了解其对于开发者和企业用例的适用性。