一款名为“Nano Banana”的匿名AI模型,在海外测评平台LMArena悄然现身后,迅速掀起了一场技术风暴。这款没有开发者标识、没有品牌背书的模型,凭借其惊人的图像生成与编辑能力,在Battle模式中击败了多个知名对手,引发网友热议。人们不仅为其贴上“一致性之王”“Photoshop杀手”等标签,更在Reddit和Discord等技术论坛中展开激烈讨论,试图揭开其背后的神秘面纱。
随着讨论的深入,谷歌AI Studio负责人Logon在X平台发布了一个香蕉表情符号,DeepMind产品经理Naina也分享了一张香蕉艺术贴墙作品。结合谷歌以往将小型模型命名为Nano的历史,答案逐渐浮出水面。8月27日,谷歌正式揭晓答案:Nano Banana正是其全新推出的图像生成与编辑模型Gemini 2.5 Flash Image。
这款模型的火爆程度远超预期。谷歌实验室总裁Josh Woodward透露,Nano Banana上线一周后,已累计完成超2亿次图像编辑,为Gemini吸引了超过1000万新用户。其热度甚至导致谷歌内部TPU资源严重过载,SRE警报不断。用户们争先恐后地体验、开发新玩法,并在社交媒体上分享传播,形成了类似2023年ChatGPT发布时的盛况。
Nano Banana的多元素拼接功能率先出圈。用户只需上传一张包含多个元素的图片,并为每个元素打上标签,然后输入想要生成的图片概述,模型即可快速生成高质量图像。例如,用户Travis David上传了一张包含13个元素的图片,轻松获得了一张堪比VOGUE杂志的时尚大片。他表示,13个元素几乎已逼近模型的上限。
在海量用户的开发下,多元素拼接功能很快衍生出各类创意玩法。时尚博主们无需再费劲扒明星同款穿搭,只需上传图片,模型即可秒出穿搭清单,甚至能将二次元动漫角色的穿搭转化为OOTD图。实测中,用户还能让模型按照指令生成某种风格的模特穿搭图,再拆解为OOTD,全程仅耗时三分钟。尽管模型在拆解过程中偶尔会出现小错误,但修改指令后,它能精准删掉多余元素,而不改动图片的其他部分。
对于日常真人出镜拍摄OOTD的网红模特来说,Nano Banana同样带来了便利。他们只需选一张状态好的全身照、一张面部写真,再上传穿搭单品图片,即可快速获得写真级别且无需修图的素材,省去了画全妆、找场地、摆pose等繁琐工作。
除了人与物之间的图像生成,Nano Banana还适用于人与人关系的拼贴。无论是好莱坞巨星、商界巨擎,还是像马斯克这样的公众人物,用户只需一声令下,即可让他们“千里奔赴”来与自己拍一张合照。这一功能让追星党们直呼万岁。
更进阶的玩法是利用Nano Banana自制手办。用户上传自家毛孩子、明星、二次元偶像的图片,模型即可生成适用手办制作的图像,甚至能提供手办成品的细节图乃至视频。尽管目前尚未有用户实测做出手办的分享,但电商平台上已有商家开始承接基于Nano Banana生成图像的手办制作。不过,商家表示,AI生成的手办建模图只能作为参考,实物做出来仍有差距。
Nano Banana的实力远不止于此。它在地图和建筑领域的空间推理图像再生效果,也让很多专业人士啧啧称奇。用户只需上传一张平面地图,并按照需求打上标签和指令,模型即可平地起高楼般生成地图对应的实景。反之,如果用户上传一张城市建筑实景图,模型又能清晰地给出图中建筑的模型图,或者按照用户的要求标注图片建筑的相关信息。这一功能同样适用于数码电子产品甚至智能汽车。
随着Nano Banana的走红,层出不穷的创意玩法以日为单位被开发出来。利用模型做漫画分镜、给线图上色,甚至直接生成有连贯剧情的电影画面……这一切的发生只用了短短两周时间,其爆发速度甚至超越了当年横空出世的ChatGPT。
Nano Banana的技术突破,在于其针对“理解-生成-保持一致-快速迭代”闭环的工程化解决方案。传统的AI模型往往“偏科”严重,文字读写能力强的模型不太懂图像,绘图能力强的模型对文字的解读却很浅显。而Nano Banana从训练之初就以文本、图像、代码等数据给模型学习,因此它不再需要将一个模态“翻译”成另一个模态,而是天然就具有多模态语义对齐能力。这种在文字和图像之间无缝切换的能力,使得用户可以用日常对话的形式,无痛用嘴修图。
Nano Banana在交错式生成与一致性保持上,也对传统模型进行了降维打击。它能够在一个连续的、多步骤的会话中,综合理解所有上下文的能力,包括用户之前下达的文字指令、上传的图片,以及模型自己生成的历史结果。同时,它还能在多次生成和编辑中,保持特定主题(人物、物体、风格)的核心能力。这一优势使得用户在创作一组不同场景下的插图时,无需每次重新描述特征,模型即可保持风格一致。
Nano Banana的快速迭代能力也远超传统模型。它能够将模型压缩优化到实际产品中以秒级响应返还高清图像,实测约13秒/张。这种快速响应能力,加上多模态语义对齐、交错式生成和一致性保持等优势,使得用户指令能够得到快速响应和迭代。
Nano Banana的冲击波同样撼动了资本市场与产业端的神经。谷歌发布Nano Banana当日,创意软件巨头Adobe的股价应声下跌约2%。比即时波动更关键的是长线走势,Adobe的股价在过去一年累计下跌了35%,主要原因之一就是极速发展的人工智能带来的颠覆性变革。
随着网友不断解锁Nano Banana的新玩法,危机感传导至更多职业领域。一位刚入行的电商服装模特表示,原本中小商家聘请模特拍摄每天成本约1500元/人,上架时间至少以周为单位,而Nano Banana能将这一整套流程压缩至分钟级。电商摄影师、后期修图师乃至视觉设计师也纷纷在社媒平台发帖调侃称眼看着被AI抢了饭碗。
然而,历史上的技术革命告诉我们,创新从未单纯地使某个行业消亡。旧生产关系被颠覆的同时,必然伴随产业重构和新职业的诞生。模特行业不会消亡,但将走向分化,“批量平替”需求势必会被AI取代,但只有人类才能表现出的“故事性”与“情感细节”,始终是市场的稀缺资源。商业摄影师、修图师和设计师的角色也在被重塑,他们的核心价值不再局限于操控相机或软件,而是延展到审美判断、叙事构思和情绪引导,以及最关键的新能力:驾驭AI实现创作意图。
对于Adobe在内的工具型平台而言,其在AI时代的价值在于提供“最后一公里”服务。互联网用户对于图像和文字生成的需求千人千面且庞大碎片化,通用AI模型很难提供端到端的完美解决方案。因此,Adobe等平台开始接入第三方基础大模型,并基于自身的数据与资源进行后期训练,最终打造出更贴合用户需求、更专业的AI落地产品。
这场技术浪潮并非一场零和游戏。Nano Banana的出现加速了产业洗牌,但同时也在打开新的机会窗口。无论是创作者、设计师还是企业,真正的挑战并非如何抵挡AI,而是如何找到与之协作的路径。工业革命时期的机器扩展了人类的肌肉力量,如今的生成式AI则在延展人类的想象力和表达力。或许我们正在进入一个全新的内容创作阶段,在这里,人与AI并非对立的两极,而是互为补充的伙伴关系。