百度搜索近日宣布,旗下文心助手AIGC创作能力迎来重大升级,推出覆盖AI图片、视频、音乐、播客等8种模态的创作矩阵,并同步发布行业首个开放式实时互动数字人智能体。此次升级标志着搜索引擎从传统信息检索工具向“全能创作与服务平台”的跨越式转型,突破多项技术瓶颈,为用户提供更高效的创作与解决方案。
升级后的文心助手以全栈式创作能力为核心,尤其在视频生成领域实现突破性进展。依托百度蒸汽机(文心专精)模型的技术迭代,传统AI视频10秒左右的时长限制被彻底打破,用户输入一段文字即可实时生成3分钟故事大片,涵盖情节设计、角色建模、镜头运镜及配乐合成全流程,生成速度超越国内主流同类模型。平台还集成“一句话写歌”“MV制作”“名场面模仿秀”等特色功能,搭配超30种特效模板,形成覆盖静态图像处理、动态视频制作及音频创作的完整生态链。
数据显示,文心助手用户日均生成AIGC内容已突破千万量级,多模态创作工具的规模化应用价值得到充分验证。即将上线的音乐数字人分身功能将进一步打通“创作-演绎”全链路,实现AI从内容生成到个性化演绎的闭环。
在任务解决能力方面,文心助手通过构建多工具调用引擎,支持用户一键触发跨领域服务,覆盖生活规划、健康咨询、教育辅导及职场办公等场景。例如,家长查询“小学生科学实验方案”时,系统可自动整合实验步骤文本、器材清单图片、操作演示短视频,并生成可打印任务卡,避免用户多次切换工具。这一“需求-解决方案”直达模式,体现了文心大模型对用户意图的深度理解与资源调度能力。
同步发布的开放式实时互动数字人智能体成为另一大亮点。该技术基于文心大模型4.5构建,融合NOVA数字人技术核心优势,具备三大特性:其一,超拟真交互体验,通过10分钟真人样本数据即可复刻声音特征、动作习惯与微表情,口型准确率与表情自然度达行业领先水平;其二,毫秒级响应能力,采用云渲染与端渲染双引擎适配,兼容多终端场景,实时对话延迟控制在百毫秒以内;其三,开放式服务生态,已接入法律、情感、旅游等领域专家数字分身,用户可直接就专业问题展开深度对话,未来还将开放第三方开发者平台。