商汤科技董事长兼CEO徐立博士在近期一场重要演讲中,深入剖析了人工智能领域当前面临的变革与机遇。他指出,人工智能正步入一个全新发展阶段,生产方式的转变成为推动这一波浪潮的关键因素,主要体现在从GPT到Scaling Law的演进、复杂任务的分解以及推理成本的急剧下降。
徐立博士详细解释了Scaling Law的精髓,即在训练过程中,通过资源投入可以预测不同规模下人工智能模型的性能表现。这一规律使得大量资源涌入,推动了人工智能领域的快速发展。然而,随着性价比逐渐降低,人们开始探索新的路径。徐立博士提到,在推理阶段引入激励模型,为测试的Scaling提供了新的延伸方向,同时也引发了应用推理架构、CPU与GPU配比以及内存配比等方面的变化。
面对行业内的挑战,徐立博士认为,未来人工智能的发展将呈现两条分化路径。一方面,垂直产业将寻找优质的激励模型,形成价值闭环,实现场景的深度切入;另一方面,探索新的架构以更好地利用现有数据将成为重要方向。他强调,人工智能进入产业应用的关键在于能否超越人类水平,而当前已有大量任务在垂直领域远超人类表现。
在谈到任务分解时,徐立博士指出,长程任务的分解能力正在以惊人的速度增长,这得益于任务复杂度的摩尔定律。这一趋势使得人类能够解决更多复杂问题,推动现实生活的进步。同时,推理成本的急剧下降也是推动人工智能普及的重要因素。徐立博士透露,过去两年中,每个token的成本以280倍的速度下降,这一变化将带来行业的巨量变革。
然而,徐立博士也指出了人工智能在行业应用中面临的挑战。他提到,模型可靠性、专业思维链数据稀缺以及空间智能理解不足等问题亟待解决。特别是在处理长链条、复杂工作时,模型容易出现幻觉和逻辑错误,导致在严肃应用环境中无法依赖。新训练框架和模型框架的引入也带来了推理成本高企的问题。
为了应对这些挑战,徐立博士提出了商汤科技的解决方案。他强调,商汤科技正致力于从底层解决模态融合问题,训练融合度最高的多模态模型。通过将语言、文本、图像、视频和3D等要素融入神经元结构,商汤科技实现了跨模态数据之间的联合分布,挖掘了不同数据之间的额外信息量。这一创新不仅提升了模型的性能,还为行业应用提供了更多可能性。
徐立博士还分享了商汤科技在具身世界模型方面的研究成果。他提到,商汤科技开源了面向智驾和机器人的具身世界模型,通过模拟生成世界模型来驱动具身本体。这一成果在机械臂拼搭积木等任务中得到了验证,展示了模型对空间智能的深刻理解。商汤科技还将其能力应用于视频生成领域,实现了跨多个摄像头之间的切镜和时空一致性,为创作者提供了更多创意空间。
在谈到推理成本时,徐立博士指出,芯片与模型的深度联合优化是降低推理成本的关键。他提到,商汤科技通过架构优化和专注推理任务,使得国产GPU芯片在视频生成等任务中能够与国际顶尖GPU芯片相媲美。这一成果不仅缩短了国产芯片与国际前沿的差距,还为行业应用提供了更具性价比的解决方案。










