ITBear旗下自媒体矩阵:

马斯克揭秘Grok 4:智能大爆炸,全榜领先,年费高达两万

   时间:2025-07-10 18:35:03 来源:机器之心Pro编辑:快讯团队 IP:北京 发表评论无障碍通道

在科技界的万众瞩目下,xAI公司今日正式揭晓了其酝酿已久的下一代大型模型——Grok 4。这一发布不仅吸引了众多科技爱好者的关注,就连科技巨头马斯克也亲自现身直播间,为Grok 4站台。

马斯克在直播中直言不讳地称赞Grok 4为“世界上最好的AI”,并展示了其惊人的能力。据他透露,Grok 4能在SAT考试(美国高考)中轻松获得满分,无需预览题目便能接近GRE任何学科的满分线,这一表现超越了全球所有研究生的水平。更令人震惊的是,Grok 4的推理能力已超越人类,马斯克甚至预言,它将在今年内实现科学新发现。

Grok 4之所以能取得如此显著的进步,得益于计算能力的增强和强化学习的训练。与前代相比,Grok 4的推理能力提升了10倍。从Grok 2到Grok 4,技术范式经历了从下一个token预测到预训练计算,再到预训练结合强化学习,最终以强化学习为核心的转变。特别是在Grok 3到Grok 4的跨越中,预训练阶段的计算量提升了10倍,并首次引入了强化学习微调,带来了深度推理能力。

Grok 4在调用工具能力上的提升也进一步放大了其智慧,使其能在各类高难度基准测试中取得远超当前最优模型(SOTA)的成绩。在HLE(Humanities Last Exam,人类最后的考试)基准测试中,Grok 4在使用工具的情况下,成绩远超其他SOTA模型,达到了前所未有的高度。特别是在给予更多思考时间和使用更多外部工具的情况下,其分数还能进一步提升。

除了HLE,Grok 4在其他基准测试中也表现出色,包括GPQA(研究生级别的Google验证问答基准测试)、AIME25(美国数学竞赛邀请赛)、LCB(编程竞赛/在线算法竞赛)、HMMT25(高中生团队数学竞赛)和USAMO25(美国顶级高中生数学竞赛)等。在这些测试中,Grok 4 Heavy均取得了最新的SOTA成绩,展示了其在各学科的全面实力。

马斯克在直播中多次强调,Grok 4现在在所有学科上都达到了博士后水平,没有发现新科学或新的物理定律只是时间问题。他甚至表示,如果Grok 4在今年内没有发现实用的新科学技术,他会感到意外。

在性能评估方面,大模型性能评估平台Artificial Analysis的全套基准测试成绩也证明了Grok 4的领先地位。其总成绩达到了73分,领先于其他知名模型如o3、Gemini 2.5 Pro、Claude 4 Opus和DeepSeek R1 0528等。

为了直观展示Grok 4的能力,xAI还分享了一些demo。例如,Grok 4能够基于物理原理生成HTML动画,模拟两个黑洞碰撞并产生引力波的可视化效果。这一动画不仅展示了引力波的模拟效果,还附带了推理过程和计算步骤的代码链接。

Grok 4在语音能力上也得到了加强。与上代相比,其语音速度快了2倍,端到端延迟更低,并支持5种语音。单日用户总停留时长也提升了10倍。同时,Grok 4还新增了Eve和Sal两个角色,其中Sal支持多种性格设定,Eve则具备唱歌和低语的功能。

在AGI(通用人工智能)领域的基准测试ARC-AGI中,Grok 4同样取得了最新SOTA成绩。这一测试旨在评估模型解决未见新问题的能力,被视为通向AGI的重要试金石。Grok 4在ARC-AGI-2上的表现几乎将之前的商业SOTA翻了一番,并超越了当前的Kaggle竞赛SOTA。

最后,在Vending-Bench基准测试中,Grok 4也展现了其在真实物理世界中执行复杂操作任务的能力。这一测试专注于解决仿真环境与现实世界之间的鸿沟,推动机器人技术在开放场景中的实际应用。

目前,Grok 4已通过API开放使用,提供256K tokens的上下文窗口。其付费模式分为年付和月付两种,价格相对昂贵。但考虑到其强大的能力和广泛的应用前景,这一价格或许并不令人意外。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version