xAI近日在官网宣布,Grok Build正式向所有SuperGrok和X Premium Plus用户开放,此前该功能仅限SuperGrok Heavy用户使用。这一调整标志着Grok Build从高门槛的小范围测试阶段,正式进入更广泛的付费用户市场,成为开发者工具领域的新竞争者。
Grok Build的推出被视为xAI在编程场景追赶竞争对手的关键一步。此前,马斯克曾公开承认xAI在编程领域落后于行业头部企业。据内部消息,xAI高管曾要求团队确保Grok在各类任务上达到Claude的水平。Grok Build正是这一战略的首个落地产品,但其上线后迅速引发用户讨论:尽管界面设计获得好评,但底层模型性能仍需提升。有用户直言,若xAI能推出真正达到SOTA(业界顶尖)水平的模型,Grok Build将立即具备与Codex、Claude Code正面竞争的实力。
针对质疑,马斯克在社交平台回应称,xAI下一代基础模型Grok V9(1.5T参数)在未加入Cursor数据进行补充训练的情况下已展现出色表现。他进一步解释了xAI复杂的版本号体系:内部开发的V9参数规模达1.5T,在数据整理、训练方法和模型规模上全面超越V8,并针对Blackwell架构进行了优化;而面向公众的v4.2基于存在重大缺陷的V8训练,参数仅0.5T,在训练数据质量、全面性和比例上存在明显不足。从V8到V9的升级被马斯克形容为“差距巨大”。
V9的突破主要体现在三个维度:首先是参数规模从0.5T扩张至1.5T,理论上可提升模型容量、复杂任务建模能力及长链路工具调用的稳定性,但其实际表现仍需公开版上线后验证。值得注意的是,由于头部模型普遍不公开参数量,V9的1.5T参数更适合作为xAI自身代际比较的指标,而非直接与其他模型横向对比。
其次是硬件架构的升级。V8训练于Hopper芯片,而V9转向为更大规模模型集群设计的Blackwell架构。后者在互联带宽、低精度计算能力及系统级扩展能力上显著提升,尤其适合万亿级模型的训练与推理。xAI的算力支撑来自部署在孟菲斯的Colossus超级集群,其持续扩张为V9的研发提供了基础设施保障。
数据质量是V9的另一大改进。马斯克坦言V8的数据存在全面性不足和比例失衡的问题,而V9通过引入Cursor数据弥补了这一短板。Cursor数据记录了开发者从空白文件到最终代码的完整过程,包括补全、回退、纠错等行为,这些“过程数据”比GitHub上的终态代码更具训练价值。V9的训练流程分为三步:补充Cursor数据、进行监督微调(SFT)和强化学习(RL),预计还需3至4周完成。若成功实施,V9将成为首个基于真实开发者行为系统性训练的Grok模型。
作为Grok Build的驱动核心,grok-build-0.1模型已于5月19日进入API早期访问阶段。这款专为智能体编程设计的快速编码模型支持文本和图像输入,具备工具调用、结构化输出和推理能力,上下文窗口达256K(约25.6万token)。其训练目标是在长链路中循环执行读问题、写代码、用终端、查错和改错的任务。xAI建议开发者将代码工作负载迁移至该模型,并称其在智能体编程和Web开发能力上有显著提升。目前,grok-build-0.1已单独上架xAI API,开发者可将其集成至自有智能体或IDE中。
Grok Build的功能定位超越传统聊天机器人,更接近完整的开发者工作流入口。作为一款终端CLI工具,它支持三种使用模式:全屏终端图形交互界面(TUI)、无界面模式(headless)和通过智能体客户端协议(ACP)接入其他应用。其核心优势在于“先规划后执行”的工作方式:面对复杂任务时,Grok Build会先生成计划并等待用户确认,修改过程以清晰的差异对比(diff)呈现,确保每处改动透明可控。它还支持子智能体并行处理任务、接入MCP服务器,并提供技能、插件和应用市场扩展体系,甚至内置了图片和视频生成命令。
尽管xAI已摊开两张底牌——V9训练完成和硬件就位,但编程模型领域的竞争远未结束。Claude Code保持高频率迭代,OpenAI的Codex持续推进功能更新,Cursor作为IDE平台也在深化智能体能力。V9的公开版上线后,其1.5T参数能否在编程基准测试中拉开与竞争对手的差距,仍需实战检验。6月,Grok Build、Claude Code和Codex将迎来正面交锋,而Cursor的持续加码也为这场竞争增添了更多变数。
















