在科技界万众瞩目的期待中,xAI公司的创始人马斯克于北京时间9月10日中午,推迟了近一个小时后,终于揭开了其最新一代人工智能大模型Grok 4的神秘面纱。尽管发布会略有波折,但Grok 4的表现依然震撼了整个行业。
据马斯克介绍,Grok 4在各项测试中均展现出了超越当前顶尖大模型的实力,无论是传统的基准测试,还是象征学术高峰的SAT考试以及各学科GRE水平测试,Grok 4都取得了优异的成绩。然而,更令人瞩目的是,Grok 4在被称为“人类最后一场闭卷考试”的Humanity’s Last Exam(HLE测试)中,实现了44.4%的准确率,远超此前所有模型的表现。
马斯克在直播中自信地宣称,Grok 4的智力水平已经超越了几乎所有学科的研究生,甚至在学术问题上,也不逊色于任何学科的博士。“没有例外”,他强调道。而Grok 4的潜力还远不止于此,马斯克透露,Grok 4基础模型的第七版即将在本月完成,随后将进行强化学习等后训练,最终将拥有卓越的视频理解能力和工具调用能力。根据xAI的规划,接下来几个月还将推出代码模型、多模型智能体以及视频生成模型。
在发布会的演示环节,Grok 4展现了其强大的解题能力和应用潜力。在AIME25、HMMT25、GPQA等主流基准测试中,Grok 4将大模型的成绩推向了新的高度,其中Grok 4 Heavy更是在AIME25(美国数学竞赛邀请赛)上获得了满分。而在更具挑战性的ARC-AGI和HLE测试中,Grok 4也展现出了卓越的学习能力和对人类智能极限的挑战。
然而,就在发布会前夕,xAI首席科学家Igor Babuschkin的突然离职,为这场盛宴增添了一丝不和谐的音符。尽管如此,马斯克依然对Grok 4充满信心,他甚至表示,Grok 4将能够遍览关键论文和资料,开发出专业的网页,甚至模拟两个黑洞接触的变化。他甚至预测,在配备物理学家使用的专业拟真软件后,Grok 4明年或许就能发现新的物理定律。
不过,Grok 4也并非完美无缺。在发布会的现场演示中,尽管Grok 4展现了出色的语音能力,能够自然地切换语调并新增了多个声音角色,但在被要求“唱一首歌”时,却意外地进入了“念诗”状态,用朗读语气念出了歌词。这一小失误暴露出了Grok 4在多模态理解方面尚不稳定的事实。发布会原定时间推迟且缺乏解释,整体节奏略显仓促,也让人对xAI的内部管理和产品节奏产生了疑问。
面对如此强大的对手,OpenAI的ChatGPT和Google的Gemini无疑感受到了前所未有的压力。在技术实力逐渐追平的今天,真正的竞争已经不仅仅局限于模型本身的能力,而是更多地体现在平台、生态和用户上。而Grok 4所展现出的“有性格、敢说话、更自由”的特点,虽然为其赢得了不少关注,但也可能让其更容易陷入舆论风波。
马斯克在直播中表达了对AI智能远超人类的担忧,但同时也表示已经某种程度上接受了这样的现实。他坦言,即使这样的未来并不一定是好的,他也至少想活着看到它发生。这一番话,无疑为这场发布会增添了几分哲思的色彩。