在AI领域,创新的浪潮从未停歇。近日,几家海外大型AI模型开发商相继发布了他们的最新成果,为行业注入了新的活力。
AI初创企业Anthropic率先推出了Claude Opus 4.1版本,标榜为Opus 4在代理任务、现实场景模拟及逻辑推理上的全面升级。紧接着,科技巨头谷歌带来了其新一代世界模型——Genie 3,该模型首次支持实时交互,被视为谷歌向通用人工智能(AGI)迈出的重要一步。
与此同时,OpenAI也做出了令人瞩目的动作,宣布开源两款推理模型:gpt-oss-120b和gpt-oss-20b。这是OpenAI自六年前以来,首次重新拥抱开源策略。OpenAI的首席执行官山姆·奥尔特曼强调,这两款模型代表了公司数十亿美元的研发投入,旨在推动AI技术的广泛普及。
具体来看,gpt-oss-120b拥有1170亿参数,采用先进的MoE(专家混合)架构,仅需51亿激活参数即可高效运行。而gpt-oss-20b虽然参数规模稍小,为210亿,但同样采用MoE架构,且能在配备16GB内存的普通设备上流畅运行。在基准测试中,gpt-oss-120b的表现接近甚至超越了闭源的o4-mini模型,gpt-oss-20b也展现出了与o3-mini相当甚至更优的性能。
尤为OpenAI此次开源不仅限于模型本身,还致力于让这些模型能够在个人电脑、智能手机等端侧设备上实现本地部署。gpt-oss-120b仅需单张80GB GPU即可运行,而gpt-oss-20b更是能够在消费级的设备上轻松部署。通过视频演示,人们看到gpt-oss-120b能够根据指令生成射击游戏,甚至改变游戏图标为草莓形状,展示了其强大的灵活性和实用性。
Anthropic则采取了不同的策略,决定加快产品迭代速度,推出更多渐进式更新。Claude Opus 4.1便是这一策略下的首个成果。Anthropic表示,相较于前代,Claude Opus 4.1在深入研究、数据分析及代理搜索能力上均有所提升,尤其擅长处理复杂的多步骤问题,被视为更有效的AI智能体。
在多项基准测试中,Claude Opus 4.1的表现均优于Opus 4。例如,在SWE-bench Verify测试中,其得分达到了74.5%,高于Opus 4的72.5%。在Terminal-Bench、GPQA Diamond及MMMLU等测试中,Claude Opus 4.1也均取得了显著进步。据用户反馈,Opus 4.1在代码修改精准度和调试效率上有了明显提升。
谷歌的Genie 3则以其强大的交互能力脱颖而出。作为谷歌首个支持实时交互的世界模型,Genie 3能够生成多样化的交互环境,模拟自然现象、生态系统及动画角色等复杂场景。在动态世界中,Genie 3能够以每秒24帧的速度进行导航,并保持画面一致性长达几分钟之久,其视觉记忆甚至可追溯至一分钟前。
通过演示视频,人们见证了Genie 3在生成机器人跑步画面、模拟灯光节期间摩托艇行驶效果等方面的卓越表现。相较于前代Genie 2,Genie 3在画面一致性和真实性上有了质的飞跃。尽管谷歌承认Genie 3仍存在局限性,如动作空间有限、难以模拟多个智能体交互等,但其无疑为AI技术的发展开辟了新的道路。
尽管备受期待的GPT-5尚未面世,但这些频繁的更新和迭代无疑展示了AI技术持续升级的趋势。无论是开源模型的端侧部署、智能体技术的演进还是世界模型的交互能力提升,都让AI大模型的可用性得到了显著提升,为未来的应用和发展奠定了坚实基础。