近日,阶跃星辰这家成立仅两年多的通用大模型创业公司,在北京举办了一场备受瞩目的媒体沟通会。会上,阶跃星辰的创始人兼CEO姜大昕向与会者透露了公司即将推出的两大新产品。
姜大昕在会上宣布,阶跃星辰预计将在未来两至三个月内,即7月至8月期间,正式发布其备受期待的满血版推理模型Step R1。他还透露,公司将在接下来的几个月里推出更加先进的Step图片编辑模型。这一消息无疑为业界和广大用户带来了新的期待。
在谈及公司的技术路线时,姜大昕强调,模型的突破是早于商业化的。他指出,“多模理解生成一体化”是当前阶跃星辰建立世界模型的最佳路径之一,这一路径将有助于公司向智能涌现、AI Agent和通用人工智能(AGI)的方向发展。姜大昕还提到,AI Agent智能体爆发的前提需要多模态和慢思考能力,而这两项能力在2024年都取得了突破性进展。
在会上,姜大昕还就C端投流的话题发表了自己的看法。他表示,DeepSeek的推出已经证明了投流逻辑的不成立,大家需要重新思考AI时代产品的流量增长方式。姜大昕指出,AI时代的产品流量增长并非像传统互联网那样靠投入就能实现,而是需要寻找新的路径。
姜大昕还分享了阶跃星辰在“理解生成一体化”方面的探索。他认为,这是整个计算机视觉领域需要突破的一个堡垒。他提到,所谓GPT-4时刻,就是指模态层面AI模型真正能够达到人的智能水平。阶跃星辰的最终目标是做“世界模型”,而“理解生成一体化”则是实现这一目标的关键。
阶跃星辰自2023年4月成立以来,便坚定探索实现通用人工智能(AGI)的道路。公司由微软前全球副总裁姜大昕担任创始人兼CEO,并吸引了包括ResNet作者之一的AI科学家张祥雨、拥有丰富大规模集群与系统建设经验的AI系统专家朱亦博等在内的众多优秀人才加入。在融资方面,阶跃星辰也表现不俗,于2024年12月宣布完成B轮融资,总融资金额达数亿美元。
在产品层面,阶跃星辰已经累计发布了22款自研基座模型,覆盖文字、语音、图像、视频、音乐、推理等全系列。其中,16款是多模态模型,占比超过七成,在行业内被称为“多模态卷王”。这些多模态模型矩阵覆盖图像理解、视频理解、图像生成、视频生成、图像编辑、音乐生成等多个领域,全部处于行业领先水平。
在产业应用层面,阶跃星辰聚焦智能终端Agent,已在汽车、手机、具身智能、IoT等关键应用场景与行业头部企业达成深度合作。例如,今年1月,阶跃星辰发布了Step R-mini,成为Step系列的首款推理模型;2月,公司宣布开源新的文生视频/图生视频模型Step-Video-T2V/TI2V,并与吉利汽车集团、OPPO、TCL等企业展开合作。
姜大昕在会上还谈到了他对AI技术未来发展的三个预测。他认为,预训练基础模型与强化学习的结合将激发模型推理时的长思维链能力;视觉领域的理解和生成将实现一体化;AI Agent将逐渐从数字世界走向物理世界,引申到智能驾驶、人形机器人等领域。
在谈及阶跃星辰为何依然坚持基础大模型时,姜大昕表示,一方面是因为AI技术的行业趋势和需求非常强烈,公司需要紧跟这一趋势;另一方面,从应用角度看,应用和模型是相辅相成的,模型可以决定应用的上限,而应用则为模型提供具体的应用场景和数据。
(注:本文图片已做适当删减,保留5张以展示内容)
最后,姜大昕表示,阶跃星辰将继续坚持基础大模型的研发,追求AGI的初心不会改变。在当前竞争格局中,阶跃星辰的差异化特点在于其领先的多模态能力,并在积极探索前沿方向。在应用层面,公司也将携手合作伙伴在智能终端AI Agent方向上发力,最终形成一个从模型到Agent、从云上到端侧的生态体系。