在科技界掀起轩然大波的消息传来,xAI公司发布的Grok 4人工智能模型,在短短72小时内迅速走红硅谷,成为全网热议的焦点。这款模型不仅能够通过一条指令生成完整的动画,还能在两分钟内快速部署一款游戏,其高效能与广泛应用潜力让众多开发者惊叹不已。
据了解,Grok 4的发布引起了AI开发者Mckay Wrigley的极大兴趣。他在体验后直言,Grok 4“强得疯狂”。在一次测试中,Grok 4 Heavy成功生成了一段动画,从人群行走到鸟瞰镜头的无缝切换,展现了惊人的理解与执行力,这样的表现是其他模型难以匹敌的。动画的提示词仅仅是:“Create an animation of a crowd of people walking to form ‘Hello world, I am Grok’ as camera changes to birds-eye.”
这段3D视频迅速在网络上走红,浏览量突破了350万。不仅如此,AI初创公司Replit的matt palme也利用Grok 4,在两分钟内部署了一款游戏,进一步证明了该模型的强大功能。
有网友利用Grok 4编写代码,结合Three.js及GLSL着色器,实现了黑洞的交互式3D模拟与可视化。这一成果在事件视界、星场和吸积盘方面呈现出惊人的细节,效果令人难以置信。Demo及源代码的链接一经发布,便吸引了大量科技爱好者的关注与讨论。
随着Grok 4的火爆,其背后的技术细节也逐渐浮出水面。作为全球最聪明的AI模型之一,xAI团队认为Grok 4已具备完全理解宇宙的基础。这得益于其采用的Scaling强化学习技术,使得Grok 4的算力相比Grok 2提升了100倍,并在20块GPU组成的Colossus集群上完成了RL训练。
在开发过程中,xAI团队不仅在预训练规模上取得了突破,还证明了接下来完全有可能大幅扩展强化学习的训练规模。Grok 4的诞生,正是这一方向的最好证明。整个技术栈的创新,使得Grok 4的训练计算效率暴涨了6倍。同时,研究团队还开展了大规模数据收集工作,将可用于验证的训练数据从以数学、编程为主,扩展到了更多领域。
Grok 4还学会了使用原生工具,在代码解释器、网页浏览工具的加持下,其思考能力得到了大幅提升。在人类最后考试(HLE)上,Grok 4用上工具的得分刷新了SOTA记录,达到了50.7%的新高度。而Grok 4 Heavy更是被称作是多智能体版,能够同时思考多种假设,最终汇总出一个可靠准确的答案。
在多项基准测试中,Grok 4系列模型均刷新了SOTA记录。特别是在ARC-AGI V2上,它以15.9%的成绩碾压所有闭源顶尖模型,是Claude Opus 4的两倍。在智能体Vending-Bench基准测试中,Grok 4的赚钱能力也遥遥领先,远超所有模型和人类。
然而,在IQ方面,Grok 4相对较弱,在门萨智商测试中仅拿下了136分,仅次于Claude 4。在第三方编程基准Aider测试中,Grok 4位列第四,正确率为79.6%,但成本高达近60美金。
回顾xAI的发展历程,从2023年7月13日正式官宣至今,已经走过了两年的历程。在这期间,从Grok 1到如今的Grok 4,xAI迅速登上了AI领域的顶峰。而马斯克作为xAI的联合创始人,也一直在利用自己的各个企业来推动xAI的发展。
就在近日,有消息称SpaceX已同意向xAI投资20亿美元,这几乎是xAI最近一轮股权融资的一半。这也是SpaceX首次投资xAI,并成为了其史上最大的投资之一。此次投资不仅体现了SpaceX对xAI的看好,也为双方未来的更多商业合作埋下了伏笔。
尽管有外媒报道称xAI正在进行估值高达2000亿美元的融资谈判,但马斯克本人对此进行了否认。他表示,xAI拥有充足的资金,并未寻求新一轮融资。然而,随着Grok 4的火爆以及SpaceX的投资,xAI的未来无疑充满了无限可能。