百度近日宣布,其自主研发的原生全模态大模型文心5.0正式版已全面上线。这款模型拥有2.4万亿参数规模,通过原生全模态统一建模技术,实现了对文本、图像、音频、视频等多种信息类型的全面支持,既能理解也能生成多模态内容。目前,个人用户可通过文心APP或官网直接体验,企业和开发者则可通过百度千帆平台进行调用。
在权威基准测试中,文心5.0正式版展现出强劲实力。其语言与多模态理解能力超越Gemini-2.5-Pro、GPT-5-High等国际主流模型,稳居全球第一梯队;图像与视频生成能力则与垂直领域专业模型相当,整体技术处于世界领先水平。这一成果标志着中国在多模态大模型领域的技术突破。
百度集团副总裁吴甜介绍,文心5.0采用独特的自回归架构进行原生全模态建模,将文本、图像、视频、音频等多源数据在同一模型框架中联合训练。这种技术路线使多模态特征在统一架构下深度融合,实现了真正的全模态理解与生成,而非传统方案的"后期融合"。模型通过超大规模混合专家结构和超稀疏激活参数设计,激活参数比低于3%,在保持强大能力的同时显著提升了推理效率。
基于大规模工具环境合成的长程任务轨迹数据,以及思维链和行动链的端到端多轮强化学习训练,文心5.0的智能体和工具调用能力得到显著增强。在应用场景中,该模型展现出惊人实力:输入一段复刻"活了么"App的教程视频,它能自动拆解步骤、理解交互逻辑,并直接生成可运行的前端代码;在创意写作任务中,可模拟《红楼梦》中王熙凤的语言风格,创作出融合古典语境与现代商业逻辑的"大观园资产重组方案"。这些案例充分证明了模型在情境理解和创作方面的卓越能力。
为持续提升模型质量,百度同步推进"文心导师"计划。目前已有835位来自科技、金融、文化、教育、医疗、能源等重点行业,以及数理化生文史哲等学科的专家加入导师队伍。他们在知识传授、鉴赏评价、专业校准等方面为模型提供指导,帮助其在逻辑严谨性、专业深度、创意质量和价值观对齐等方面不断优化。
回顾发展历程,文心5.0系列模型自2025年11月发布Preview版本以来,已在LMArena全球大模型竞技场多次取得优异成绩,长期位居文本榜和视觉理解榜国内第一,跻身国际第一梯队。最新数据显示,1月15日文心5.0以1460分位列LMArena文本榜国内第一、全球第八,超越GPT-5.1-High、Gemini-2.5-Pro等多款国内外主流模型。这一系列成就体现了中国模型厂商在多模态大模型底层技术的自主创新能力,有助于提升中国AI在全球产业竞争中的技术话语权。











