ITBear旗下自媒体矩阵:

商汤林达华深度剖析:多模态智能四次破壁,迈向AGI的三大核心挑战

   时间:2025-08-12 18:16:57 来源:量子位编辑:快讯团队 IP:北京 发表评论无障碍通道
 

在近期落幕的世界人工智能大会(WAIC 2025)上,一个关键词跃然成为技术领域的焦点——“多模态智能”。当行业还在热议“Scaling Law”是否已达极限,一些前瞻性的企业已将目光投向更远的未来。

大会上,商汤科技推出了国内首个实现“图文交错思维”的商业级大模型——日日新6.5,并系统性地公布了从多模态感知、多模态推理到与物理世界交互的完整发展蓝图,直指通用人工智能(AGI)的最终目标。

这一系列发布在业界引发了广泛讨论与思考:多模态为何被视为AI的未来?如何构建真正的原生多模态模型?在通向AGI的漫长道路上,我们需要面对哪些核心挑战?

商汤科技联合创始人、首席科学家林达华教授近日发表了一篇万字长文,深入剖析了商汤在多模态通用智能道路上的探索与实践。文章不仅是对商汤技术路径的复盘,更对当前AI领域关于路径、数据、模型架构、商业化等一系列关键问题给出了答案。

文章指出,智能的核心在于与外界进行自主交互的能力,而世界是以多元形态存在的。语言只是描述世界的工具,并非世界本身。人类通过多种感官接收信息,并融合这些信息以形成对世界的完整认知。因此,仅仅依赖文本数据的语言模型,无法构建真正意义上的AGI。AI若要具备通用性,就必须能够处理和理解图像、声音、视频等多种模态的信息。

在实现多模态模型的技术路径上,主要有两种选择:适应训练和原生训练。适应训练是一种“嫁接”模式,将预训练好的视觉编码器连接到一个已训练好的大语言模型上。然而,这种“后补”的多模态能力,更像是僵硬地遵循范例,模型并未真正深入理解语言和视觉的内在关联。原生训练则是一种“融合”模式,在预训练阶段就将文本、图像等多种模态的数据混合在一起进行训练。商汤在早期尝试过适应训练,但很快发现了其局限性,因此决定投入数千P的算力进行大规模对比实验,最终确立了“原生多模态”的技术路线。

实验结果显示,一个原生的多模态融合模型,在合适的数据配比下,无论是在纯文本任务还是图文任务上,其表现都优于各自独立的专门模型。视觉和语言的融合时机也很关键,在预训练的中段开始融合训练效果最佳。基于这一判断,商汤将所有研发力量都汇聚到一个统一的融合模型上,从“日日新6.0”开始,只发布多模态模型。

为了实现从简单的感知到复杂的、像人一样的思考,商汤提出了“四次破壁”的演进框架。第一次破壁是Transformer实现长序列建模,为大语言模型的诞生奠定基础。第二次破壁是语言与视觉的会合,形成多模态理解。第三次破壁是突破逻辑思维与形象思维的边界,实现多模态推理,这是“日日新6.5”实现的关键突破。商汤引入了“图文交错思维链”,让模型在思考过程中不仅能生成文字,还能在需要时调用工具在原图上进行编辑或生成新的示意图,形成“图文并茂”的思考路径。

第四次破壁是突破与物理空间的边界,实现与真实世界的交互,这是通向AGI的终极一步。商汤的多模态模型为世界模型提供了关于物理世界的海量先验知识,其在智能驾驶等业务中积累的真实数据,也为世界模型的构建和对齐提供了坚实基础。

在数据方面,林达华在文章中详细阐述了商汤应对数据挑战的策略。多模态训练最关键的数据是强关联的“图文对”,然而互联网上天然存在的图文对数量稀少且质量参差不齐。商汤的解决方案是大规模自动化构造,研发从文本出发合成图像以及从图像出发生成多样化问答对的自动化数据管线。商汤还建立了一套严格的“续训验证”机制,确保数据质量的持续提升。

在大模型时代,模型架构设计的核心是效率。商汤在“日日新6.5”中进行了一项重要的架构优化,重新思考了视觉编码器和MLLM主干的功能定位,推动视觉编码器的轻量化,同时将MLLM主干网络变得更深更窄,以适应深度推理的需要。这次架构调整结合数据优化,使得模型在性能相当的情况下,效率提升了超过3倍。

商汤之所以能在技术浪潮中总能踏准节奏甚至领先一步,源于其技术基因的传承与远见、高效且富有活力的研究组织以及技术理想与商业价值的正向循环。应用场景中遇到的真实问题会牵引出关键的科研课题,融入研发规划;而技术上的突破则会为产品构筑长期的竞争力。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version