人工智能领域再度迎来现象级产品——代号“纳米香蕉”的AI图像工具凭借卓越表现迅速走红。这款由谷歌研发的Gemini 2.5 Flash Image模型,上线仅一周就完成超2亿次图像编辑操作,在社交平台掀起全民创作热潮。科技爱好者、设计师群体纷纷晒出创意作品,从跨时空合影到三维地图重构,从发型变换到动态手办生成,用户们用“掌管P图的神”等称号表达惊叹。
AI狂热者蔡小姐的体验颇具代表性。她上传一张拉丁舞服照片后,模型快速生成细节逼真的三维手办图,裙摆褶皱与配饰还原度惊人。更令她惊喜的是自然语言交互功能:“只需说‘让人物微笑’,系统就能精准调整表情,生成毫无违和感的阳光笑脸。”这种“用嘴P图”的体验,源于模型对图像语义的深度理解能力。据谷歌披露,该模型在连续20次编辑中保持95%以上的字符一致性,人物表情、角度、背景变换时仍能维持形态稳定。
上海人工智能研究院技术总监方帅指出,模型的核心突破在于理解能力的质变。不同于早期文生视频模型对物理规则的模糊处理,“纳米香蕉”能准确预测气球触碰仙人掌会炸裂的场景。这种进步得益于谷歌将Gemini大模型的知识储备迁移至图像领域,使系统既懂视觉逻辑又通物理常识。交互层面,模型支持100余种语言指令,识别准确率达92%,用户输入“添加帽子”等简单指令即可获得理想效果。
在小红书等平台,用户已将创意转化为商业价值。有人通过模型生成娃衣、手机壳等设计图,借助内置店铺完成销售闭环。以15元成本制作的艺术插画手机壳,月销百件即可创造可观利润。这种“先测流量后生产”的模式,正在重塑传统设计行业的工作流程。APEX-toy创始人马力坦言,当前AI虽难完全替代手办细节雕刻,但在潮玩设计领域已展现实用价值。
国内科技企业同样加速布局。阶跃星辰副总裁李璟透露,其5月发布的开源模型Step1X-Edit已具备同类能力,在语义解析、身份保持、区域控制等方面表现突出。演示视频显示,该模型可通过语音指令修改图片元素,如将粽子替换为月饼、让人物年龄增长30岁等操作均轻松实现。李璟强调,多模态大模型的技术迭代仍在持续,未来将重点发展汽车、手机等智能终端的交互助手。
面对激烈竞争,“纳米香蕉”团队明确技术方向:不仅要提升视觉质量,更要追求智能准确性。其终极目标是打造能深度理解用户意图的AI系统,甚至在某些领域超越人类表现。这场图像生成领域的竞赛,正推动着交互方式与商业模式的双重变革。