滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

马斯克抢先发布Grok 4.1，性能情商双提升，大模型竞争再掀高潮

时间：2025-11-18 22:30:02 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

当科技圈还在热议谷歌即将推出的Gemini 3时，马斯克旗下xAI公司悄然放出重磅消息：其最新大语言模型Grok 4.1系列正式上线。这款被业界称为"双形态"的模型不仅在响应速度和事实准确性上实现突破，更通过独特的推理增强版本重新定义了AI交互体验。

此次发布的Grok 4.1包含标准版和Thinking版两个版本，二者共享底层架构但采用不同推理配置。Thinking版作为增强推理变体，通过"思考令牌"机制实现链式推理，在复杂数学运算、编程任务和多步骤问题解决中表现尤为突出。标准版则凭借256K tokens的上下文窗口（快速模式下可扩展至200万），在长文档处理和持续对话中保持高度连贯性。

在权威盲测平台LMArena的最新评测中，Grok 4.1系列创造历史性成绩：Thinking版以1483 Elo评分登顶冠军，标准版紧随其后获得亚军。这个全球最具影响力的评测体系通过匿名双盲对战和真实用户投票，验证了模型在综合性能上的绝对优势。特别值得注意的是，标准版在非推理模式下仍超越所有竞争对手的推理模型，将前代产品Grok 4远远甩至第33名。

事实准确性是此次升级的核心突破点。xAI引入的大规模强化学习系统，配合前沿推理模型作为奖励机制，使Grok 4.1的幻觉率从12.09%骤降至4.22%。在专门检验事实判断能力的FActScore测试中，该模型得分从9.89优化至2.97，错误率降低超过70%。这意味着在涉及外部事实调用的场景中，模型能提供更可靠的证据支撑而非语义猜测。

情感理解能力的飞跃同样引人注目。在EQ-Bench情商测试中，Grok 4.1以1586 Elo评分稳居榜首，较前代提升超百分。这个由45个角色扮演场景构成的测试集，通过三轮连续对话评估模型的共情能力和情绪响应。官方示例显示，当用户倾诉失去宠物的悲伤时，新模型能精准捕捉"空睡窝""期待中的喵叫"等细节，提供更具人文关怀的回应。

创意写作领域迎来质的提升。在Creative Writing v3基准测试中，Grok 4.1以1722 Elo评分进入全球顶尖梯队，较前代提升近600分。该测试要求模型完成32个类别的三轮独立创作，涵盖叙事结构、风格模仿和世界构建等复杂任务。实测显示，新模型已从"段子生成器"进化为具备文学质感的创作者，能自然融入修辞手法和角色心理描写。

用户体验优化体现在每个交互细节。标准版在保持极快响应速度的同时，输出质量显著提升。官方旅游攻略示例中，旧版模型提供的"百科式"清单被替换为个性化建议：根据用户偏好推荐拍摄时段、规划特色路线，甚至解读城市文化气质。这种"本地向导"式的交互风格，使对话更接近真实人际交流。

在正式发布前两周的静默测试中，64.78%的真实用户在双盲对比中选择Grok 4.1的回答。这个由部分用户流量切换形成的测试样本，验证了模型在真实场景中的优越性。目前所有用户均可通过Grok官网、X平台及新推出的iOS/安卓应用免费体验，其中Thinking版提供"深度思考"按钮，用户可主动触发增强推理模式。

实测环节验证了技术文档的宣传亮点。在逻辑推理测试中，面对存在两组解的数学谜题，Grok 4.1不仅完整呈现两种可能性，还尝试优化题目条件——尽管优化建议存在瑕疵，但展现出主动解决问题的思维模式。写作测试中，模型用861字（非宣称的578字）生动还原发布现场，准确嵌入产品亮点和市场背景。图像生成功能则展示出惊人的真实感，其创作的照片级图片可一键转化为动态视频。

更多>同类资讯

优必选推全尺寸超仿生人形机器人U1系列，人机共生时代叙事正被重写

07-01

专访大晓王飞：世界模型构建进化闭环，具身智能落地迈关键一步

07-01

苹果紧急发布安全更新：应对AI黑客威胁，缩短补丁推送时间护安全

【环球网科技综合报道】7月1日消息，据appleinsider和forbes报道称，为应对人工智能技术加速黑客攻击速度的新现实，苹果公司于本周一打破常规，发布了iOS26.5.2、iPadOS 26.5.…

07-01

机构调研聚焦A股硬科技赛道人形机器人与半导体材料成资金新宠

07-01

天空工场创投基金布局广泛：投资至少58家企业，多领域成果显著

07-01

松下转型：押注AI基础设施，投资加码与裁员并举谋发展

07-01

芯联集成2026年三季度调价15%-25%，全球近20家半导体企业7月已跟进涨价

07-01

AI编程工具“重量”升级：Codex流量硬盘双飙升，轻与重如何抉择？

07-01

Anthropic重磅更新：Sonnet 5性能跃升，Claude Science助力科研新突破

07-01

美光CEO：内存供需失衡不全是芯片商之过客户压价致行业投资不足

07-01

00后陈博远：以通用世界基座模型，引领AI走向物理世界新征程

07-01

汽车业变局：协作机器人上线，工人岗位消逝与行业未来之思

07-01

从工厂到卧室：最高99万仿生机器人开启预售，情感陪伴能否成新蓝海？

07-01

“机器人伴侣”预售破万：赛博陪伴热潮下的孤独与情感之思

高度自定义外观存在复刻真人容貌的侵权风险；长期依赖完美顺从的AI陪伴，可能削弱人处理现实人际关系的能力，让人逃避真实情感磨合；机器人存储大量私密情绪数据，隐私安全保护机制仍待完善。 1.1万台订单，不只是一款…

07-01

麻省理工新突破：低功耗芯片助力微型无人机实时构建三维环境地图

该芯片将专用硬件与紧凑的地图绘制算法相结合，显著降低了创建机器人周围环境三维模型所需的内存和能量。构建详细的三维地图通常需要机器人处理大量图像数据并存储周围环境的复杂模型。通过在路径规划过程中重用紧凑的高斯…

07-01

点击查看更多 +

全站最新

中国汽车产业破局：告别“互黑内卷” 共赴技术品质竞争新征程

出境游旺季语言成难题？讯飞AI眼镜轻装上阵，多语种翻译助力跨境出行沟通无阻

科大讯飞研究院2027届飞星计划启航邀你共赴AI未来新征程

Coffee AI Sound殿堂声音响系统夺冠，彰显中国品牌智能声学技术新高度

法拉利首款纯电Luce亚洲首秀引热议：88台配额锁定订金40万起试驾待明年

二手豪华燃油车价格“大跳水”：保时捷15万、宾利26.8万，入手好时机？

热门内容

本栏最新

岚图泰山X8纯电版7月交付，配置拉满，30万级SUV市场激战将启

iCAR V27首轮大规模OTA升级来袭智能驾驶等140余项功能焕新升级

iCAR V27首轮大规模OTA升级来袭智能驾驶安全座舱全面焕新升级

缤果PRO上市月余车主反馈：好看好开又实用，城市代步新选择

织密算力网络郑州打造全国算力“数纽”赋能数字中国建设

AI产业下半场：技术创新与产业落地融合下的五大趋势与机遇洞察

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.