近期,社交网络上掀起了一股独特的“3D打印手办”风潮,朋友圈和各大社交平台被各式各样的手办图片刷屏。这些手办形象各异,既有明星偶像,也有家中萌宠,让人目不暇接。然而,这股热潮背后的神秘推手,竟是谷歌最新推出的图像生成与编辑模型——Nano-banana。
Nano-banana,其正式名称为Gemini 2.5 Flash Image,自8月26日上线以来,便以其强大的图像编辑能力迅速走红。用户只需上传人物或动物的图片素材,并输入相应的提示词和指令,该模型便能将这些素材转化为栩栩如生的“手办”图片。不过,这些“手办”仅存在于虚拟世界,无法实体化。
随着Nano-banana的走红,3D打印概念股也迎来了一波震荡拉升。海正生材、长江材料等多只股票涨停,金橙子、思看科技等个股也纷纷跟涨。这一市场表现,无疑与Nano-banana所引发的3D打印手办热潮形成了呼应。
Nano-banana的强大之处在于其跨图一致性、多图融合、对话式/指令式精细编辑等核心能力。该模型还借助Gemini世界知识,实现了更强的常识和语义理解。用户可以通过Gemini App或API等方式访问Nano-banana,其API定价也相当亲民,生成单张图片的成本仅为约0.039美元。
Nano-banana已经获得了诸多海外平台的高度评价,如Adobe、WPP、Figma等,这些平台已迅速集成Nano-banana并验证了其生产力提升的效果。华福证券认为,谷歌Nano-banana的出圈标志着多模态模型向更高能力的突破,同时看好多模态领域的未来发展。
事实上,AI图像模型已成为科技巨头们的核心竞争领域。OpenAI、meta等巨头纷纷推出自己的图像生成技术,以抢占市场先机。OpenAI推出的基于GPT-4o模型的图像生成功能Images in ChatGPT,实现了从单一语言模型向全模态智能体的跨越。而meta则宣布将与Midjourney合作开发图像和视频生成技术。
华泰证券指出,原生多模态模型架构已得到业界的广泛认可。OpenAI和Google的原生多模态模型在性能、延时、部署等方面展现出了显著优势。多模态为主的产品商业化速度也快于文本产品,从大模型到多模态已成为商业化的必由之路。随着技术的不断进步和应用场景的拓展,多模态大模型和应用发展的奇点或将即将到来。