在AI领域,创新浪潮从未停歇。近期,多家海外大厂相继推出了他们的大模型新品,为AI技术的发展注入了新的活力。
AI创新企业Anthropic率先行动,发布了Claude Opus 4.1版本。这款新模型在Opus 4的基础上进行了全面升级,尤其在代理任务、现实世界编码以及逻辑推理方面表现更为出色。Anthropic表示,他们正在从专注重大版本更新转向更频繁的渐进式改进,Claude Opus 4.1正是这一策略转变的首个成果。
紧随其后,谷歌推出了其新一代世界模型——Genie 3。与前两代相比,Genie 3的最大亮点在于支持实时交互,这标志着谷歌在世界模型领域迈出了重要一步。据谷歌介绍,Genie 3能够生成多样化的交互环境,模拟自然现象、生态系统以及动画角色等,为AI智能体的训练提供了更为丰富的场景。
与此同时,OpenAI也带来了令人瞩目的动作。在时隔六年后,他们再次选择开源,推出了gpt-oss-120b和gpt-oss-20b两款推理模型。这两款模型不仅参数量庞大,而且采用了先进的MoE架构,推理性能在开源模型中名列前茅。更重要的是,OpenAI此次开源的模型能够在电脑、手机等端侧设备上本地部署,这大大拓宽了AI技术的应用场景。
gpt-oss-120b和gpt-oss-20b的表现同样不俗。在基准测试中,gpt-oss-120b在竞赛编码、工具调用等方面的得分接近甚至超过了闭源的o4-mini模型,而gpt-oss-20b也展现出了与o3-mini相当或更优的性能。OpenAI CEO山姆·奥尔特曼表示,这两款开源模型是OpenAI多年研究成果的结晶,它们的推出将推动AI技术的进一步发展。
从实际应用来看,gpt-oss-120b和gpt-oss-20b的本地部署能力为AI技术的普及提供了更多可能。例如,gpt-oss-120b可以在单张80GB容量的GPU上运行,而gpt-oss-20b则能在16GB内存的消费级设备上流畅运行。这意味着,用户无需依赖昂贵的云端资源,就能在自己的设备上享受到AI技术带来的便利。
在Anthropic方面,Claude Opus 4.1的推出也带来了显著的性能提升。在SWE-bench Verify基准测试中,Claude Opus 4.1的得分超过了前代产品Opus 4,显示出更强的编码能力。该模型在Terminal-Bench、GPQA Diamond以及MMMLU等多个基准测试中也取得了优异成绩。据Anthropic介绍,Claude Opus 4.1擅长处理复杂的多步骤问题,被定位为更有效的AI智能体。
谷歌的Genie 3同样展现出了强大的实力。在演示视频中,Genie 3能够生成逼真的动态世界,包括模拟灯光节期间在水面上行驶的摩托艇等复杂场景。这些功能的实现,得益于Genie 3对世界物理特性的精确建模以及强大的视觉记忆能力。
尽管Genie 3已经取得了显著进步,但谷歌也坦诚地指出了其存在的局限性。例如,可执行的动作空间有限、难以模拟多个智能体在同一环境中的交互等。这些挑战也为未来的AI技术发展指明了方向。