ITBear旗下自媒体矩阵:

百度文心大模型5.1发布:登顶多个榜单,预训练成本仅为业界 6%

   时间:2026-05-09 22:52:29 来源:TechWeb编辑:快讯 IP:北京 发表评论无障碍通道
 

5月9日消息,百度文心大模型5.1 正式发布,其继承文心5.0 知识,显著降低预训练成本,将总参数压缩至约1/3、激活参数压缩至约1/2,仅使用业界同规模模型约6% 的预训练成本,实现同级别模型基础效果领先。

登录文心一言官网即可与文心5.1模型对话体验最新能力。开发者可以通过千帆大模型平台修改model_name为ernie-5.1即可调用API服务。

另外,从今天起,文心大模型 5.1 将陆续在超过十个创意生产智能体平台上线,包括 ISEKAI ZERO(全球领先的 AI 角色扮演互动平台)、Mulan AI(创意智能体平台)、谛听幻流(AI 原生创意画布)和 Storymaster(AI 短剧生成平台)等。欢迎创作者和用户试用。

登顶多个榜单

5月9日,文心大模型5.1在 Arena Search 排行榜上获得1223分,位居全球第4位,在中国模型中排名第1。

文心大模型 5.1 在多个权威行业基准测试中均取得了强劲的成绩,尤其是在智能体能力、知识、推理和深度搜索方面表现突出。

在 τ³-bench 和 SpreadsheetBench-Verified 智能体评估任务中,文心大模型 5.1 超越了 DeepSeek-V4-Pro,其智能体能力已接近领先闭源模型的水平。在 Search Arena 排行榜上也表现极其出色。

世界知识与创意写作能力方面,在 GPQA 和 MMLU-Pro 评估中,文心大模型 5.1 的性能接近领先闭源模型。在内部评估中,文心大模型 5.1 的创意写作能力已接近 Gemini 3.1 Pro。

推理能力接近领先闭源模型,在颇具挑战性的数学竞赛基准 AIME26(使用工具)上,文心大模型 5.1 得分 99.6,仅次于 Gemini 3.1 Pro。

预训练计算成本仅为同类模型的 6%

文心大模型 5.1 衍生自文心大模型 5.0,从文心大模型 5.0 的多维弹性子模型矩阵中提取出最优子网络架构,在有效继承文心大模型 5.0 所编码知识与能力的同时,显著降低了预训练成本。

研发团队提出了一种创新的“一次训练,处处部署”(Once-For-All)弹性训练框架。传统方法需要为不同规模的模型分别进行预训练,而文心大模型 5.0 则通过动态采样机制,在一次预训练过程中联合优化大量具有不同深度、专家容量和路由稀疏度的子模型,构建了一个覆盖不同参数规模和计算预算的子模型矩阵。

在此过程中,模型沿着三个维度实现弹性压缩与扩展:

弹性深度:训练期间,随机改变激活的 Transformer 层数,使不同深度的子模型能够共享权重,自适应地学习深层与浅层表示的平衡。

弹性宽度/专家容量:通过改变参与路由的专家数量,弹性控制 MoE 层中的有效专家容量。通过动态采样专家子集,模型学习在完整和缩减的专家池配置下运行,从而提高专家利用效率。

弹性稀疏度:通过可变 Top-k 路由机制灵活调整激活的专家数量。激活较少专家可降低推理成本、提升解码效率,而激活更多专家则能增强模型能力,从而实现推理开销与性能的动态平衡。

基于这一突破,文心大模型 5.1 将总参数量压缩至文心大模型 5.0 的约三分之一,激活参数量压缩至约二分之一,预训练计算成本仅为同规模同类模型的 6%。与文心大模型 5.0 相比,推理成本显著降低,同时在同规模模型中仍能实现领先性能。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version