一款名为Nano Banana 2的AI图像生成工具近日引发科技圈关注。这款工具以预览版形式短暂现身第三方平台Media.io后迅速下架,仅有少数用户参与测试。据参与测试者反馈,该工具在复杂场景构建和细节处理方面展现惊人实力,其生成的网页界面、浏览器窗口甚至完整桌面环境均达到以假乱真的程度,且全程无需参考任何原始图像。
测试版本显示,Nano Banana 2(内部代号GemPix2)在真实性模拟、生成效率与交互控制三大维度实现突破。系统不仅能精准渲染文字内容,还能构建包含多层级菜单的复杂用户界面。在物理规律模拟测试中,该工具同时生成了精确显示特定时间的钟表与斟满液体的酒杯,两者在光影效果与材质表现上均符合现实逻辑。更引发争议的是其具备生成逼真监控画面的能力,业内人士推测正式版本可能会对此功能进行限制。
在知识推理测试环节,新旧版本呈现明显代际差异。初代产品处理数学问题时虽能把握大致方向,但最终输出的公式存在严重理解障碍;二代版本尽管存在细微误差,却能呈现结构完整的解题过程,展现出基础逻辑运算能力。这种进步在需要多步骤推理的复杂任务中表现尤为突出,标志着AI图像生成从"形式模仿"向"内容理解"的跨越。
该工具的技术源头可追溯至2025年8月。当时匿名现身LMArena平台的初代Nano Banana凭借图像编辑能力迅速登顶测评榜单,两周内吸引超2亿次图片编辑操作,为关联应用带来千万级新增用户,甚至助力Gemini短暂超越ChatGPT登顶苹果应用商店。谷歌随后证实,这个引发轰动的工具实为Gemini 2.5 Flash Image的测试代号,其名称源于内部项目"香蕉纳米机器人"的图像生成实验。
初代产品的核心竞争力在于革命性的图像交互方式。通过自然语言指令,用户可实现多轮迭代编辑,系统能精准保持角色特征一致性,彻底解决AI创作中常见的"身份漂移"问题。其独创的多图融合技术可将不同场景无缝拼接,风格迁移功能则支持跨图像的材质与色调转换,这些特性使其在电商广告领域获得广泛应用。运行于TPU v5架构的优化系统,将单图生成成本压缩至0.039美元,仅为行业平均水平的十分之一。
开发团队透露,当前图像生成技术已接近物理真实极限,未来重点将转向"意图理解"领域。这包括提升系统对模糊指令的解析能力,增强上下文关联推理,以及构建更自然的人机协作模式。谷歌正加速推进技术整合计划,除现有Gemini生态外,测试范围已扩展至Google Photos、视觉搜索等核心产品,试图构建覆盖图像生成、编辑、检索的全链条AI视觉服务体系。










