1月22日,百度正式推出并上线了其原生全模态大模型——文心5.0正式版。这一模型拥有高达2.4万亿的参数规模,采用原生全模态统一建模技术,能够实现对文本、图像、音频、视频等多种信息形式的全面理解与生成。目前,个人用户可通过文心APP或文心一言官网体验该模型,而企业与开发者则可通过百度千帆平台进行调用。
在权威基准的综合评测中,文心5.0正式版展现了卓越的性能。其语言与多模态理解能力超越了Gemini-2.5-Pro、GPT-5-High等国际知名模型,稳居国际第一梯队。同时,该模型的图像与视频生成能力也达到了垂直领域专精模型的水平,整体处于全球领先地位。此前,百度文心助手的月活跃用户数已突破2亿大关。
百度集团副总裁吴甜介绍,文心5.0的技术路线与业界普遍采用的“后期融合”多模态方案截然不同。它采用统一的自回归架构进行原生全模态建模,将文本、图像、视频、音频等多源数据在同一模型框架中进行联合训练。这种设计使得多模态特征在统一架构下充分融合并协同优化,实现了原生的全模态统一理解与生成,避免了传统方法中的拼接和转译问题。
文心5.0还采用了超大规模混合专家结构,具备超稀疏激活参数,激活参数比低于3%。这一设计在保持模型强大能力的同时,有效提升了推理效率。该模型还基于大规模工具环境合成长程任务轨迹数据,并采用基于思维链和行动链的端到端多轮强化学习训练,显著提升了模型的智能体和工具调用能力。
在应用层面,百度应用模型研发部负责人贾磊强调,模型的价值在于应用而非模型本身。他希望文心模型能够在真实应用场景中“跑得稳、答得对、用得起”。基于文心基础大模型,百度构建了矩阵模型和专精模型两大体系。矩阵模型面向产品级应用和通用场景快速落地,包括文心Lite模型、视频大模型和语音大模型;专精模型则面向行业应用和垂直场景,如搜索闪电专精模型、电商蒸汽机模型、文心数字人大模型及行业大模型等。
贾磊还分享了三项技术突破:基于声音Token的端到端合成大模型、5分钟超越真人的直播技术以及实时交互数字人技术。其中,基于声音Token的端到端合成大模型通过离散表示定义token,以MoE大语言模型建模韵律,实现了高质量的声音合成。5分钟超越真人的直播技术则通过对目标音色的少量采样和脸谱化妆,结合检索增强匹配不同文体和场景的韵律模式,使合成语音具备直播带货所需的情绪、节奏与感染力。实时交互数字人技术则采用三态Token联动架构,实现文本、语音、视频的流式控制,具有低延迟、低成本和高表现力的特点。
在模型应用赋能行业的背后,是百度基于多年积累的全栈自研实力。百度打通了“芯云模体”的全链技术架构,为模型应用提供了坚实的技术支撑。在文心Moment大会当天,百度千帆平台产品负责人张婷详细介绍了千帆专为行业落地打造的Agent Infra。该平台提供包括文心5.0及全场景150+SOAT模型服务,集成众多工具及MCP和Agent工具链,并结合数据管理和企业级服务,为企业提供全周期、稳定支持多场景业务的运行环境,显著降低了企业Agent创新门槛。
目前,千帆平台上已累计开发超130万个Agents,以百度独家能力“百度AI搜索”为代表的工具日均调用量已突破千万次。基于强大的原生全模态统一建模技术和海量算力,文心5.0已具备让AI应用走进真实行业与复杂场景、提供更高效解决方案的能力。作为国内最早发布大模型的企业之一,百度正持续探索赋能行业的AI解决方案,形成以芯片为底座、智能云为平台框架、以模型支撑各类智能体应用的“芯云模体”全栈自研生态闭环。











