ITBear旗下自媒体矩阵:

百度文心Moment大会启幕:文心5.0正式版上线,引领AI应用新潮流

   时间:2026-01-23 06:21:53 来源:天脉网编辑:快讯 IP:北京 发表评论无障碍通道
 

百度近日正式推出并上线了其原生全模态大模型文心5.0正式版,这一模型以2.4万亿参数的规模,成为当前全球参数规模最大的多模态大模型之一。与传统的多模态方案不同,文心5.0采用原生全模态统一建模技术,将文本、图像、视频和音频等多源数据在同一模型框架内联合训练,实现了多模态特征的原生融合与协同优化,从而具备了全模态理解与生成能力。

在技术架构上,文心5.0引入了超大规模混合专家结构,通过超稀疏激活参数设计,将激活参数比控制在3%以下,既保证了模型的强大能力,又显著提升了推理效率。该模型还基于大规模工具环境合成长程任务轨迹数据,并采用端到端多轮强化学习训练方法,进一步增强了智能体和工具调用能力。在权威基准评测中,文心5.0的语言与多模态理解能力已超越Gemini-2.5-Pro、GPT-5-High等国际主流模型,稳居全球第一梯队,其图像与视频生成能力也达到垂直领域专精模型水平。

百度应用模型研发部负责人贾磊在发布会上强调,模型的价值最终体现在应用场景中。他指出,文心5.0的研发始终围绕“跑得稳、答得对、用得起”的目标,致力于让模型在真实场景中发挥实效。基于这一理念,百度构建了矩阵模型和专精模型两大体系:矩阵模型面向通用场景快速落地,包括文心Lite模型、视频大模型和语音大模型;专精模型则聚焦行业应用,如搜索闪电专精模型、电商蒸汽机模型、文心数字人大模型及行业大模型等。

在技术突破方面,贾磊分享了三项创新成果。首先是基于声音Token的端到端合成大模型,该模型通过离散语音token定义、MoE大语言模型韵律建模、flow后处理谱分布描述以及Unet自重构特征vocoder等技术,实现了高质量声音合成。其次是5分钟超越真人的直播技术,通过少量音色采样、脸谱化妆和韵律模式匹配,使合成语音具备直播带货所需的情绪感染力。最后是实时交互数字人技术,采用三态Token联动架构,实现文本、语音、视频的流式控制,并由声音Token实时驱动表情与口型,输出低延迟、高表现力的视频流,百度罗永浩数字人即基于此技术开发。

为推动大模型在产业中的落地,百度千帆平台推出了Agent Infra解决方案。该平台集成文心5.0及150余个全场景SOAT模型服务,提供百度AI搜索等工具及MCP和Agent工具链,并结合数据管理和企业级服务,为企业构建全周期、多场景的业务运行环境。目前,千帆平台已累计开发超130万个Agents,以百度AI搜索为代表的工具日均调用量突破千万次。此前,百度的数字人生成技术已在直播带货等领域广泛应用,2025年罗永浩数字人直播曾创下行业纪录。

作为国内大模型领域的先行者,百度正通过“芯云模体”全栈自研生态闭环,持续探索AI赋能行业的解决方案。这一生态以芯片为底座、智能云为平台框架、模型为支撑,覆盖从底层技术到上层应用的完整链条,为AI在真实世界中的落地提供了坚实基础。当前,全球AI行业正加速进入应用深化阶段,如何让AI技术真正服务于行业需求,已成为行业共同关注的焦点。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version