腾讯在大模型技术领域的进展正以前所未有的速度推进。
近日,腾讯宣布其混元模型矩阵实现了全面升级,包括旗舰级的快思考模型混元TurboS和深度思考模型混元T1均迎来了新的迭代。基于TurboS模型,腾讯进一步推出了视觉深度推理模型T1-Vision和端到端语音通话模型混元Voice。同时,混元图像2.0、混元3D v2.5以及混元游戏视觉生成等一系列多模态模型也同步更新了新版本。
在全球大模型技术的激烈竞争中,腾讯混元的技术实力持续增强。腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生在腾讯云AI产业应用峰会上透露,在权威的Chatbot Arena大语言模型评测平台上,混元TurboS的排名已经跻身全球前八,仅次于国内的DeepSeek。特别是在代码、数学等理科能力方面,TurboS也进入了全球前十的行列。
自年初正式发布以来,混元TurboS作为业界首款大规模混合Mamba-MoE模型,已经在效果和性能上展现出显著优势。这一最新突破得益于预训练阶段tokens增训以及后训练阶段引入的长短思维链融合技术,使得TurboS的理科推理能力提升了超过10%,代码能力提升了24%,竞赛数学成绩更是大幅提升了39%。
与此同时,腾讯在去年下半年就开始大力投入深度思考模型的研发。自年初上线元宝App以来,混元T1持续快速迭代,并在多项核心能力上实现了提升。其中,竞赛数学效果提升了8%,常识问答提升了8%,复杂任务的Agent能力提升了13%。
在多模态模型方面,腾讯混元也取得了显著进展。基于TurboS的基座模型,混元进一步拓展了图片和音频的多模态理解能力。新发布的混元视觉深度推理模型T1-Vision支持多图输入,具备原生长思维链,整体效果相比此前的级联方案提升了5.3%,理解速度也提升了50%。
端到端语音通话模型混元Voice实现了低延迟语音通话,响应速度相比级联方案提升了超过30%,降至1.6秒,拟人性和情绪应用能力也有明显提升。该模型已在腾讯元宝App灰度上线,实时视频通话AI体验也即将推出。
今年以来,腾讯混元的迭代速度明显加快。在多模态生成领域,混元图像2.0率先实现了“毫秒级”生图,Geneval基准测试准确率超过95%。这得益于超高压缩倍率的图像编解码器以及全新扩散架构,模型参数量提升了一个数量级,带来了交互体验的革新。在主观画面质量和美学层面的人工测评中,混元图像2.0也被认为是“AI味”最少的模型之一。
混元3D v2.5凭借业界首创的稀疏3D原生架构,实现了可控性与超高清生成能力的代际飞跃。几何模型精度提升了10倍,纹理贴图达到了4K。在端到端评测中,混元文生3D在17个生成类目中占据了15个第一,图生3D在17个类目中全部取得第一。
在游戏领域,腾讯混元推出了精通游戏美术与术语的游戏视觉生成模型,涵盖游戏技能特效生成、角色动态立绘、实时交互游戏世界模型、角色多视图等五大子模型。同时,混元游戏视觉生成平台也正式上线,面向工业级游戏资产生成,游戏美术设计效率可提升数十倍。
腾讯云副总裁、腾讯混元大模型技术负责人王迪表示,混元正加速向智能化的深度和广度迈进,为AI普惠与产业升级提供坚实支撑。混元坚定拥抱开源,持续推进多尺寸、多场景的全系模型开源。目前,混元已实现图像、视频、3D、文本等在内的全模态开源,其中混元3D模型在Hugging Face上的下载量已超过160万。
除了模型开源外,腾讯混元还面向行业推出了混元训练营,提供免费模型资源及技术支持。目前已有超过200家合作伙伴报名参与。今年以来,腾讯在大模型领域的战略和部署持续进化,步伐日益加快。混元已深度融入腾讯各业务线,广泛应用于微信、QQ、腾讯元宝、腾讯会议、腾讯文档等核心产品,并通过腾讯云向外输出模型能力,帮助企业和开发者创新提效。