随着人工智能技术的飞速发展,大型语言模型(LLM)正逐步迈向多模态的新纪元。这一趋势不仅拓宽了LLM的应用场景,还引领了一场技术革命。华泰证券近期发布的《多模态大模型和应用奇点将至》研究报告,深入探讨了这一领域的最新进展。
报告指出,尽管LLM已在众多领域展现出超越人类的智能,但其处理的核心信息仅限于文本。为了打破这一局限,研究者们开始将其他模态的能力融入LLM中,从而催生了多模态大型语言模型(MLLM)。MLLM能够接收、推理并输出多种模态的信息,极大地丰富了模型的交互方式和功能。
从技术架构上看,MLLM主要分为模块化架构和原生架构两大类。模块化架构通常是将不同模态的部分以“pipeline”的形式拼接在一起,而原生架构则直接在全部模态数据上从头开始同步训练。尽管模块化架构在实现上相对简单,但原生架构在性能、延时和部署方面展现出显著优势。然而,原生架构对算力和技术知识的需求较高,目前主要由行业头部大厂如OpenAI和Google等主导。
在商业化方面,MLLM正成为AI应用公司的重要发力点。全球范围内,基于MLLM的多模态产品商业化进展迅速,尤其是在海外市场。这些产品涵盖了图像生成、视频生成、语音合成等多个领域,展现出强大的市场潜力和商业价值。相比之下,国内市场的商业化进程虽然也在加速,但整体上仍落后于海外。
以图像生成产品为例,从追求更高逼真度到提升易用性与整合度,各玩家不断寻求差异化卖点。Midjourney通过迭代模型版本提高图像质量和细节理解,同时借助社区运营积累大批创意用户;OpenAI则将DALL·E嵌入ChatGPT对话中,让用户在聊天中即可生成图像。这一系列演化体现出图像生成正从小众试验转向大众应用,成为普通内容创作的一部分。
在视频生成领域,国内厂商同样展现出强劲实力。随着Sora等产品的发布,以及Diffusion Transformer(DiT)技术路线的确认,各初创公司和大厂在视频生成赛道加速布局。其中,快手可灵等产品的商业化进展迅速,成为国内视频生成领域的标杆应用。
多模态产品的演进方向各异,但总体趋势是围绕不同内容形式,优化出特定场景下的AI创作体验。语音、音乐、3D等各领域产品也找到了各自的切入点,丰富了C端市场的选择。同时,个性化定制能力越来越受到重视,成为产品差异化的重要手段。
华泰证券的研究报告认为,多模态大型语言模型是AI技术发展的必然趋势。随着技术的不断进步和商业化进程的加速,多模态产品将持续迭代升级,为用户和企业带来更加丰富的应用场景和更高的商业价值。