马斯克旗下的xAI公司近日在争议声中推出了Grok 4.2公测Beta版,尽管团队近期经历高层动荡,但新模型的发布依然引发广泛关注。与当前主流大模型动辄数万亿参数不同,Grok 4.2仅采用500B参数架构,这种"轻量化"设计使其在性能表现上呈现两极分化态势——部分用户盛赞其创新功能,另一派则批评其逻辑推理能力不足。
面对质疑声浪,马斯克在社交平台展开密集公关行动。他不仅连续转发数十条正面评价,更亲自发文强调:"当前版本仍存在诸多缺陷,但团队正在每日修复。公测结束后,Grok 4.2将展现出比前代快数倍的推理速度。"据技术文档披露,该模型具备每周自我迭代的独特能力,未来将形成常态化更新机制。这种动态优化模式被视为对抗OpenAI等竞争对手的关键策略。
测试数据显示,Grok 4.2在弱智吧风格测试题中表现亮眼。当被问及"50米外洗车店该开车还是步行"时,模型准确识别出距离因素与交通方式的非关联性,给出符合逻辑的解答。但专业开发者指出,在复杂数学证明和跨领域知识整合等任务中,500B参数的局限性开始显现。Reddit社区讨论显示,部分用户认为马斯克宣称的"横扫榜单"可能源于特定测试环境的优化。
模型偏见问题再度引发争议。尽管马斯克承诺打造无偏见系统,但实际测试发现Grok 4.2在涉及性别议题时,回答倾向与创始人公开立场高度吻合。例如在"Caitlyn Jenner"测试中,模型展现出与ChatGPT、Gemini截然不同的价值判断,该结果在社交平台引发新一轮伦理讨论。支持者则强调,这种"个性化"特征恰恰体现了模型的人文关怀。
技术细节的缺失加剧了外界猜测。xAI至今未公布完整训练数据构成和底层架构说明,仅在排行榜披露部分基准测试结果。这种透明度不足导致讨论集中于用户体验层面,而非技术突破本身。AI工程师Mark Krechman透露,当前版本属于"精简试验品",中大型版本正在研发中,该说法获得马斯克本人转发确认。
在模型发布同期,xAI还推出Grok imagine视频生成工具,目前仅限iOS用户使用。这项新功能被视为拓展多模态能力的重要布局,但具体市场反响仍有待观察。随着公测持续推进,Grok 4.2能否在每周迭代中实现性能跃升,将成为检验马斯克技术承诺的关键指标。











