ITBear旗下自媒体矩阵:

谷歌“纳米香蕉”AI出圈:自然语言P图引热议,国产大模型能否后来居上?

   时间:2025-09-06 15:11:21 来源:文汇报编辑:快讯团队 IP:北京 发表评论无障碍通道
 

近日,一款名为“纳米香蕉”的AI图像工具突然走红网络,其代号为谷歌最新推出的Gemini 2.5 Flash Image模型。这款工具凭借强大的图像生成与编辑能力,在科技圈、设计领域和内容创作群体中引发了热烈讨论。用户纷纷在社交媒体上分享使用体验,甚至将其誉为“AI生图新王”“掌管P图的神”。

与传统图像工具不同,“纳米香蕉”不仅能融合多张图片生成全新画面,还能理解地理、建筑和物理结构,甚至可以将二维地图转化为三维景观。据谷歌透露,该模型上线一周内,用户累计完成超2亿次图像编辑操作,足见其受欢迎程度。

用户对“纳米香蕉”的创意玩法层出不穷。有人用它实现跨时空合影,有人为自己设计各种发型,还有人利用地图生成三维景观。其中,最受欢迎的功能之一是照片生成手办模型。无论是真人、二次元角色还是宠物,用户都能通过上传照片快速生成手办设计图。一位AI爱好者蔡小姐分享了自己的体验:“我用一张穿着拉丁舞服的照片上传后,模型迅速生成了手办设计图,裙子的细节和三维效果都非常逼真,简直想立刻拥有实物。”

“纳米香蕉”的火爆,离不开其技术能力的突破。与去年文生视频模型Sora相比,它的图像一致性表现堪称“断档领先”。用户提供一张人物照片后,模型可以生成8种表情、不同角度或背景的图像,甚至转换为三维模型,而人物形态始终保持自然。在连续20次编辑操作中,字符一致性准确率超过95%。

上海人工智能研究院技术总监方帅指出,“纳米香蕉”的核心优势在于理解能力的提升。谷歌团队介绍,该模型利用Gemini大模型的知识储备,将图像理解能力迁移到生成领域。例如,当用户输入一张气球飘向仙人掌的图片并要求预测下一幕时,模型会准确显示气球炸裂而仙人掌完好的画面。这种对物理规则的理解,远超此前模型的表现。

交互模式的革新也是“纳米香蕉”的一大亮点。它支持超过100种语言的自然语言指令,识别准确率达92%。用户只需输入简单指令,如“给他戴上帽子”,模型就能输出符合要求的图像。其“火柴人”玩法也引发关注:用户用火柴人画出动作后,模型能生成逻辑自洽的动作图,例如一人踢腿进攻、另一人蹲下防守。

“纳米香蕉”的走红,不仅改变了创作方式,还催生了新的商业模式。在小红书等平台上,用户将创意转化为娃衣、饰品、手机壳等实体商品,并通过软件内置店铺完成销售。一位卖家表示,以成本15元、售价68元的艺术插画手机壳为例,月销100件即可创造可观利润。这种“先输出图片、再生产实体”的模式,正在重塑设计和销售流程。

不过,AI生成手办仍面临挑战。二次元手办企业APEX-toy创始人马力指出,当前手办平均配件数量达150个,复杂款式甚至超过300个,AI尚无法精细还原所有细节。“纳米香蕉”的玩法更适合潮玩设计,但距离真正制作手办还有距离。

中国科技公司在图像生成领域也在加速布局。阶跃星辰副总裁李璟透露,其开源图像编辑大模型Step1X-Edit已具备类似能力,在语义解析、身份一致性和区域控制上表现突出。例如,用户可以通过语音指令修改图片元素,如改发型、换衣服颜色,甚至让人物变老30岁。

李璟还表示,Step1X-Edit与“纳米香蕉”的技术路线相似,但视频和图像交互产品的多模态大模型仍需大量迭代。未来,智能终端智能体将成为应用核心,例如汽车、手机和电脑桌面助手。阶跃星辰正探索“理解生成一体化”的架构突破,以期带来更颠覆性的AI体验。

面对激烈竞争,“纳米香蕉”团队坦言,其目标不仅是提升视觉质量,更要追求聪明和事实准确性,打造能理解用户深层意图的AI。“先做产品还是先做架构,目前没有标准答案,但每个人都看到了机会。”这场AI图像领域的竞赛,才刚刚开始。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version