ITBear旗下自媒体矩阵:

谷歌“纳米香蕉”AI模型引热议,“用嘴P图”受追捧,国产AI如何接招?

   时间:2025-09-06 20:14:27 来源:文汇报编辑:快讯团队 IP:北京 发表评论无障碍通道
 

人工智能领域又迎来一位“新星”——代号“纳米香蕉”的AI图像模型,凭借其强大的功能与便捷的操作,迅速在社交媒体上引发热议。科技爱好者、设计师及内容创作者纷纷在各大平台分享使用体验,有人称其为“AI生图界的黑马”,也有人赞其“重新定义了P图方式”。短短一周内,该模型累计完成超2亿次图像编辑,成为近期最受关注的AI工具之一。

这款引发关注的模型,实为谷歌推出的Gemini 2.5 Flash Image。与传统图像生成工具不同,它不仅能将多张图片融合成全新画面,还能精准解析地理、建筑及物理结构,甚至将二维地图转化为三维景观。用户只需上传照片,即可实现跨时空合影、发型变换、三维景观生成等创意玩法。其中,最受欢迎的功能当属“照片转手办”——无论是真人、动漫角色还是宠物,都能通过模型生成细节逼真的三维模型,大批用户直呼“想立刻拥有”。

AI爱好者蔡小姐分享了她的使用体验。她提到,模型最令人惊喜的是“对话式修图”能力。用户无需输入复杂指令,只需用自然语言描述需求,模型便能快速完成编辑。例如,她上传一张冬季人像照,要求让人物露出笑容,模型迅速生成了一张表情自然、阳光灿烂的新照片。照片转手办功能也让她印象深刻——上传一张拉丁舞服照片后,模型不仅还原了裙摆的复杂细节,三维效果也十分出色,仿佛“从屏幕中跳了出来”。

“纳米香蕉”的火爆,离不开其背后强大的技术支撑。据介绍,该模型在图像一致性上实现了断层式领先。用户上传一张人物照片后,模型可生成8种表情、不同角度或背景的变体,甚至转化为三维图像,人物形态始终保持稳定。在连续20次编辑操作中,字符一致性准确率超过95%。上海人工智能研究院技术总监方帅指出,这一表现源于模型对图像理解能力的显著提升——谷歌将Gemini大模型的知识储备应用于图像生成,使其能更精准地解析物理规则。例如,当输入“气球飘向仙人掌”的图像并要求预测后续画面时,模型会正确显示气球炸裂、仙人掌完好的结果,而此前同类模型常出现逻辑错误。

交互模式的革新也是“纳米香蕉”的一大亮点。模型支持超过100种语言的自然语言指令,识别准确率达92%。用户输入“给他戴上帽子”,模型会立即输出戴帽人物照;输入多张照片后,用火柴人画出动作,模型还能生成逻辑自洽的动态图,如“一人踢腿进攻,一人蹲下防守”。这种“所见即所得”的交互方式,让AI应用更贴近用户想象。

“纳米香蕉”的走红,也推动了AI技术的商业化落地。在小红书等平台,已有用户将创意转化为娃衣、饰品、手机壳等实体商品,通过模型自带店铺完成销售闭环。例如,一款成本15元、售价68元的艺术插画手机壳,月销100件即可创造可观利润。设计师们也开始采用“AI先行”模式——先输出海量图片,用流量测试市场反应,再生产实体产品。

不过,AI生成手办仍面临挑战。二次元手办企业APEX-toy创始人马力指出,当前手办平均配件数量达150个,复杂款甚至超过300个,AI尚无法精细还原所有细节,“但潮玩设计可能会率先受益”。与此同时,国内企业也在加速布局。阶跃星辰副总裁李璟透露,其开源图像编辑模型Step1X-Edit已具备同类能力,在语义解析、身份一致性保持及区域级控制上表现突出。例如,用户可通过语音修改图片元素——将粽子换成月饼、让人物变老30岁,或调整发型、衣服颜色等。

李璟还表示,Step1X-Edit与“纳米香蕉”的技术路线不谋而合,但视频、图像类交互产品的多模态大模型仍需大量迭代。未来,智能终端智能体(如汽车、手机及桌面工作助手)将成为应用核心。阶跃星辰正探索“理解生成一体化”的架构突破,以期带来更颠覆性的AI体验。目前,先做产品还是先做架构尚未有定论,但竞争已愈发激烈。“纳米香蕉”团队坦言,其目标不仅是提升视觉质量,更要追求“聪明”与“事实准确性”,打造能理解用户深层意图的AI,甚至超越人类表现。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version