ITBear旗下自媒体矩阵:

阶跃星辰创始人谈AI未来:多模态模型如何铺就通往AGI之路?

   时间:2025-05-08 23:28:10 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

在AI领域,阶跃星辰以其惊人的速度和创新力,在短短两年内推出了16款多模态大模型,迅速在业界赢得了“多模态卷王”的称号。近日,阶跃星辰的创始人兼CEO姜大昕在接受采访时,深入分享了他对于AI未来的思考,尤其是多模态在通向通用人工智能(AGI)道路上的关键作用。

姜大昕强调,无论是从AGI的定义出发,还是从AI应用的实际需求来看,多模态能力都至关重要。他认为,AGI旨在模拟人类智能,这意味着它不仅要具备语言模态对应的符号智能,还需拥有视觉智能、空间智能、运动智能等。任何一个方向的短板,都可能阻碍AGI的实现。同样,从应用角度来看,智能系统只有具备了听、看、说等能力,才能真正理解用户环境,实现与用户的自然交互。

在AI技术演进的过程中,阶跃星辰始终认为,多模态是实现AGI的必经之路。姜大昕将AI技术的发展分为三个阶段:模仿学习、探索世界和归纳世界。在模仿学习阶段,模型从海量数据中学习多种模态的表征,统一表达多种模态是核心问题。探索世界阶段,模型需要复杂问题求解能力和慢思考能力,这些能力可以通过强化学习技术获得。归纳世界阶段,模型将逐渐具备自主学习能力,发现客观世界的规律。

阶跃星辰在多模态模型上的投入是显而易见的,他们几乎每个月都会发布一款基础大模型。例如,他们与Ace Studio联合开源的Ace-Step音乐大模型,参数量仅3.5B,却能支持19种语言,最快可在15秒内生成一首歌曲。他们发布的Step-R1-V-Mini多模推理模型,具备高精度感知能力,已在门店巡检、短剧审核等生产场景中得到了应用。

姜大昕特别提到了多模态理解生成一体化的技术路径。在语言层面,大语言模型已经能够完成理解与生成任务。然而,在多模态领域,由于图片、视频等模态的复杂度极高,理解生成一体化的难题尚待突破。姜大昕认为,生成需要理解控制,理解需要生成监督。目前,多模态模型仍处于“前Transformer”时期,尚未出现可拓展的模型架构。但阶跃星辰内部已有多个团队在探索这一方向,并开源了Step1X-Edit图像编辑模型,该模型已初步具备了一定的理解生成一体化能力。

在应用层面,阶跃星辰坚持超级模型+超级应用双轮驱动的策略。他们看到了智能终端Agent的潜力,认为多模态能力和慢思考能力使Agent能够感知环境、理解任务上下文,并处理复杂任务。目前,阶跃星辰的智能终端Agent已在手机、汽车、机器人等领域得到了应用。例如,OPPO手机上的“一键问屏”功能就使用了阶跃星辰的多模态模型,吉利的智能座舱则采用了他们的端到端语音交互技术。

对于AI的未来,姜大昕表示,阶跃星辰将继续坚持基础大模型的研发,追求AGI的初心不会改变。在当前的基础大模型格局中,阶跃星辰将多模态作为其差异化优势,积极探索多模态理解与生成一体化这一前沿方向。他们相信,这一领域存在着巨大的机会,将推动AI技术迈向新的高度。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version