ITBear旗下自媒体矩阵:

华为盘古718B模型如何突围?从数据质量到Agent能力的系统化创新

   时间:2025-09-29 15:48:15 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在最新一期的SuperCLUE中文大模型通用基准测评中,华为凭借其7180亿参数的MoE架构大模型openPangu-Ultra-MoE-718B跻身前三,与DeepSeek-V3.1、Qwen3-235B等开源模型同台竞技。这一成绩的背后,是团队对模型训练逻辑的深度重构——通过数据质量优先、三阶段预训练、批判性思维内化等创新策略,突破了传统“堆数据”的路径依赖。

数据构建环节,团队摒弃了“以量取胜”的常规做法,转而建立“质量评估-科学筛选-精准增强”的全流程体系。在指令数据清洗阶段,采用规则、模型、人工三重审核机制,确保低质量样本被彻底过滤;在任务设计上,通过领域与任务类型的双重维度覆盖,结合去重算法避免冗余;针对模型易在简单任务上过拟合的问题,团队量化推理步骤、概念抽象度等指标,重点强化中高难度任务的训练比例。这种对数据质量的严苛把控,为模型在复杂场景下的推理能力奠定了基础。

预训练阶段,团队将整个过程拆解为通用、推理、退火三个递进阶段。通用阶段通过海量文本与代码数据,构建模型的世界知识基础;推理阶段大幅增加泛数学、STEM及代码数据的比重,并引入高难度多步骤推理题库,配合详细思维链(CoT)引导模型学习逻辑路径;退火阶段则通过阶梯式扩展上下文长度至128K,同时增加指令类数据与Agent工具使用数据,使模型逐步掌握外部工具调用能力。这种分阶段训练策略,有效平衡了模型的基础认知与专项能力。

针对大型语言模型普遍存在的幻觉问题,团队提出“批判内化”机制。与传统批判微调(CFT)依赖固定人类反馈数据不同,该机制在模型训练完成后,通过拒绝采样引入自我批判信号,迫使模型在生成答案时主动审视推理过程。例如,在数学推理任务中,模型需检查逻辑链条是否完整、计算步骤是否准确;在代码生成任务中,则需验证语法正确性与功能实现度。实验数据显示,这一机制使模型的指令遵从性与输出可靠性显著提升。

在工具使用能力方面,团队开发的ToolACE框架通过四项关键技术实现突破:领域工具组合技术将关联工具(如日历查询与航班预订)绑定,提供工具依赖图;交互式目标轨迹生成采用“计划-执行”分离策略,先由AI规划工具调用序列,再通过模拟环境执行;多智能体对话生成引入随机打断、反问澄清等复杂交互;多维校验与错例迭代则对生成数据进行内容满足度、状态变化正确性等多维度评估,低分数据将反哺生成策略优化。经此训练的模型,在复杂多轮交互中展现出精准的工具调用能力。

后训练阶段,团队采用“渐进动态微调-强化学习-模型融合”三步策略。渐进动态微调(PDFT)通过动态调整训练权重,避免模型对特定数据过拟合;强化学习环节选用GSPO算法,相比传统GRPO算法在训练稳定性上提升30%;模型融合阶段则通过黑盒优化算法,自动搜索不同版本模型的最佳组合权重,生成综合性能更强的最终模型。这一系列优化,使openPangu-718B在数学推理、代码生成、幻觉控制等六个维度的评估中均表现优异。

从数据筛选到训练策略,从幻觉控制到工具学习,openPangu-718B的突破印证了一个核心逻辑:大模型的竞争力不在于参数规模或数据体量,而在于对技术细节的极致打磨。当行业仍在争论“规模定律”是否适用时,华为用实践给出了另一种答案——通过系统性技术创新,同样能在激烈竞争中开辟新路径。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version