蚂蚁集团近日推出了一款名为“灵光”的全模态通用AI助手,这款产品凭借其创新的多模态交互能力,迅速成为科技领域的焦点。作为行业内首个实现全代码生成多模态内容的AI工具,“灵光”不仅支持3D、音视频、图表、动画、地图等多种形式的信息输出,还通过移动端应用为用户带来了前所未有的交互体验。

“灵光”的核心优势在于其突破性的对话模式。与传统文字问答不同,它通过结构化思维将复杂信息转化为逻辑清晰、表达简练的回答,并辅以动态3D模型、可交互地图等可视化内容,使用户能够快速理解知识要点。例如,在教育场景中,当用户询问某个知识点时,“灵光”不仅能提炼关键信息,还能生成3D实物动图或互动表格,让抽象概念变得直观易懂。
这种高效的信息呈现方式背后,是“灵光”基于全代码生成的多模态输出能力。所有呈现的图表、动画甚至小应用组件,均由模型根据对话情境即时生成,而非依赖预设模板。同时,其多智能体协作的Agentic架构能够动态调度图像、3D、动画等专用模块,实时协作完成复杂任务,为用户提供沉浸式体验。
针对普通用户需求,“灵光”推出了“闪应用”功能。用户只需在对话中输入一句话,即可在1分钟内、最快30秒生成定制化AI应用。无论是健身计划工具、旅行规划器还是健康食谱生成器,均可通过参数自定义实现个性化需求,并支持即用即分享。例如,用户询问“溏心蛋要煮多久”时,“灵光”会生成一个时间计算器,用户可根据鸡蛋大小和熟度调整参数;若想了解养车成本,则可生成交互式计算器,自由组合里程、油费等变量得出最优方案。
值得注意的是,“灵光”生成的闪应用并非静态页面,而是直接调用大模型等后端能力,实现与外部环境的实时交互。这一特性显著拓宽了应用场景边界,使其从单纯的信息展示工具升级为具备生产力的智能助手。
另一项创新功能“灵光开眼”则搭载了AGI相机技术,通过实时视频流解析实现对物理世界的观察与理解。该功能支持文生图/视频、图生图/视频等多种创作模式,在旅游场景中表现尤为突出。用户只需用手机对准目标建筑,“灵光”即可识别并讲解其历史背景或文化意义,将虚拟信息与现实场景无缝融合。

作为蚂蚁集团AGI战略的重要产品,“灵光”精准捕捉了2025年AI应用向场景化生产力工具转型的趋势。其核心理念“让复杂变简单”通过将应用开发嵌入日常对话得以实现,重新定义了通用型AI助手的能力边界。目前,“灵光”已同步登陆安卓与苹果应用商店,用户可免费体验这一革命性工具。
蚂蚁集团近年来在AGI领域持续发力,除“灵光”外,还推出了AI医疗管家AQ、布局具身智能灵波科技,其百灵大模型也已跻身万亿参数模型阵营。这一系列举措标志着蚂蚁集团正加速构建以通用人工智能为核心的生态体系。








