ITBear旗下自媒体矩阵:

百度文心Moment大会启幕 文心5.0正式发布 引领AI应用新征程

   时间:2026-01-24 01:34:29 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

百度近日正式推出并上线了其原生全模态大模型文心5.0正式版,标志着人工智能领域又一项重大技术突破。该模型拥有高达2.4万亿的参数规模,通过原生全模态统一建模技术,实现了对文本、图像、音频、视频等多种信息类型的全面理解与生成能力,为用户提供了前所未有的交互体验。

据介绍,与当前业界普遍采用的“后期融合”多模态方案不同,文心5.0采用了统一的自回归架构进行原生全模态建模。这一创新技术路线将文本、图像、视频、音频等多源数据在同一模型框架内联合训练,使得多模态特征能够在统一架构下充分融合并协同优化,从而实现了原生的全模态统一理解与生成。这一突破不仅提升了模型的理解能力,还极大地增强了其生成内容的多样性和准确性。

在性能方面,文心5.0同样表现出色。该模型采用了超大规模混合专家结构,具备超稀疏激活参数,激活参数比低于3%。这一设计在保持模型强大能力的同时,有效提升了推理效率,使得模型在处理复杂任务时更加迅速和高效。文心5.0还基于大规模工具环境合成长程任务轨迹数据,并采用基于思维链和行动链的端到端多轮强化学习训练,显著提升了模型的智能体和工具调用能力。

在应用层面,文心5.0同样展现出了巨大的潜力。百度应用模型研发部负责人贾磊在发布会上表示,应用模型的价值在于其在实际场景中的应用效果。为此,百度基于文心基础大模型构建了矩阵模型和专精模型两大体系。矩阵模型面向产品级应用和通用场景快速落地,包括文心Lite模型、视频大模型和语音大模型等;而专精模型则面向行业应用和垂直场景,如搜索闪电专精模型、电商蒸汽机模型、文心数字人大模型及行业大模型等。

贾磊还分享了三项令人瞩目的技术突破:基于声音Token的端到端合成大模型、5分钟超越真人的直播技术以及实时交互数字人技术。其中,基于声音Token的端到端合成大模型通过离散表示定义token,以MoE大语言模型建模韵律,实现了高质量的声音合成;5分钟超越真人的直播技术则通过对目标音色的少量采样和脸谱化妆技术,使合成语音具备直播带货所需的情绪、节奏与感染力;而实时交互数字人技术则采用三态Token联动架构,实现了文本、语音、视频的流式控制,突破了传统数字人三个模态串联的制作模式。

为了推动大模型在产业中的落地应用,百度还推出了千帆平台这一行业解决方案。千帆平台产品负责人张婷在发布会上详细介绍了千帆专为行业落地打造的Agent Infra。该平台提供了包括文心5.0及全场景150+SOAT模型服务在内的丰富资源,并集成了包括百度AI搜索在内的众多工具及MCP和Agent工具链。结合数据管理和企业级服务,千帆平台能够为企业提供全周期、稳定支持多场景业务的运行环境,显著降低企业Agent创新门槛。目前,千帆平台上已累计开发超130万个Agents,以百度独家能力“百度AI搜索”为代表的工具日均调用量已突破千万次。

随着全球AI行业的快速发展,AI如何应用于真实世界与行业从而进一步产生价值已成为行业探索的重要方向。作为国内最早发布大模型的企业之一,百度正基于多年积累的技术实力形成以芯片为底座、智能云为平台框架、以模型支撑各类智能体应用的“芯云模体”全栈自研生态闭环。这一生态闭环的构建不仅为百度在AI领域的持续发展奠定了坚实基础,也为整个行业的创新与发展提供了有力支撑。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version