ITBear旗下自媒体矩阵:

Gemini Omni引领全模态浪潮,Minimax等纯AI公司增长潜力待释放?

   时间:2026-05-20 00:55:58 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

今年的Google I/O大会吸引了全球科技界的目光,其热度较往年更甚。这背后,不仅是因为Gemini Omni的惊艳亮相,更在于业界对其能否将模型能力转化为搜索、广告、购物和云业务收入增长的期待。Gemini Omni的发布,标志着谷歌在AI领域迈出了重要一步,也引发了市场对“全模态”AI未来发展的深入思考。

Gemini Omni此次带来了两大突破性功能。其一,它能够根据用户的一句话生成完整的教学视频。例如,用户只需输入指令,描述一位教授在黑板上进行数学证明的场景,Omni便能一次性完成空间关系、文字内容和推理逻辑的处理,生成符合要求的视频。这一功能不仅展示了Omni对物理世界关系的深刻理解,也体现了其在多模态生成方面的强大能力。其二,Omni将文本、图像、视频、音频等多种能力整合到一个对话框中,用户无需切换多个工具,即可完成写文章、生成图片、剪辑视频等复杂任务。这一设计极大地提升了生产效率,为用户提供了更加便捷的AI体验。

随着AI技术的不断发展,AI Agent的应用场景日益广泛。然而,当前市场上的AI Agent大多存在功能单一的问题,难以满足真实世界中复杂任务的需求。例如,制作一个带字幕和背景音乐的短视频,需要用户在不同工具之间来回切换,操作繁琐且效率低下。因此,市场迫切需要一种能够同时处理“看、听、说、写、画”的统一系统,以实现跨场景、适配角色的任务解决。

谷歌此前在AI架构上采取分模态策略,Veo负责视频生成,Gemini处理文本,Imagen专注图像处理。然而,Omni的发布标志着谷歌正式转向统一多模态架构,将所有生成和理解功能整合到一个系统中。这一转变不仅是对“全模态到底重不重要”问题的直接回应,也为AI Agent的发展指明了方向。在国内,Minimax作为一家同时具备文本和多模态能力的独立AI公司,也在这一领域取得了显著进展。

AI技术的商业化进程一直是市场关注的焦点。阿里财报显示,其MaaS业务ARR已超过80亿元人民币,预计年底将达到300亿元,半年间增长了3.75倍。这一增速表明,AI的回报时间已经到来。然而,与阿里等拥有现成销售网络和云基础设施的公司不同,AI原生公司(pure-play)需要依靠模型本身的吸引力来赢得市场。Minimax便是一个典型案例,其通过模型差异化获客,在市场上取得了不俗的成绩。

Minimax的M2系列Token用量在2026年2月比2025年12月增长了6倍,每分钟Token处理量(TPM)保持着每周10%到20%的环比增速。摩根士丹利研报显示,Minimax的ARR在2026年2月已超过1.5亿美元,年底有望达到10亿美元,与国际竞争对手处于同一量级。更值得一提的是,Minimax在单台8xH800推理服务器上可实现每分钟约1美元营收,而运行成本不到0.3美元,营收规模是行业平均水平的2倍,单位经济效益大幅领先。

Minimax的商业模式不仅注重效率,还强调用户体验。其毛利率从2024年的12.2%提升至2025年的25.4%,营销费用同比下降了40.3%。这意味着用户和收入的增长不再依赖广告投放,而是工具使用带来的真实价值在自发裂变。例如,知名开发者Peter Steinberger一个月的API Token账单高达130万美元,总Token消耗量6030亿,请求量760万。这一案例虽然引发了关于成本的讨论,但也从侧面反映了Minimax模型的实际应用价值。

谷歌Omni的发布让“全模态”成为市场关注的焦点,而Minimax作为国内在这一领域的领先企业,也受到了广泛关注。摩根士丹利认为,Minimax在基础设施上的优势将转化为更领先的用户体验和超出预期的Token消费。摩根大通则指出,Minimax在ToB和ToC市场的双管齐下策略,以及全球化布局,为其带来了经济灵活性,增长天花板高于同行。

Minimax从创立初期便坚持文本与多模态并行发展的思路,与谷歌Omni不谋而合。这种思路使得其LLM预训练、视觉模型、视频生成等环节的底层能力得以共用,一份研发投入带来文本和多模态能力的同步提升。瑞银认为,Minimax的“工程层”能力是其真正的护城河。模型是引擎,工程层是方向盘和刹车,二者结合才能发挥最大效能。Minimax正在用“模型+工程层”两条腿走路,推动创意场景和办公场景的双重发展。

中信建投进一步指出,多模态训练产生的视觉理解能力可以反哺文本模型,提升模型智能上限。随着全模态技术的不断进步,AI Agent将逐步走进日常生活场景,成为随时可调用的基础智能资源。未来的AI Agent将能够同时看懂设计草图、听懂语音指令、生成带字幕的演示视频并配上背景音乐,所有操作在一个系统内完成,无需切换工具。这一变革将带来前所未有的市场爆发力。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version