谷歌近日宣布推出全新图像生成模型Nano Banana 2,在分辨率、生成一致性及多语言支持等方面实现显著突破。该模型基于Gemini 3.1 Flash Image架构升级,图像输出分辨率从2K提升至4K,同时优化了文本渲染精度与画面元素融合能力。据技术文档披露,新版本通过改进算法架构,成功解决了前代模型存在的中文字符乱码、语义逻辑混乱及画面伪影等核心问题。
在功能整合方面,Nano Banana 2创新性地融合了Gemini Flash的极速响应特性与Nano Banana Pro的语义理解能力。用户可在单次工作流中保持最多5个角色形象的高度一致性,同时支持单张画面内嵌入14种不同元素。特别值得关注的是,该模型引入实时网络搜索功能,可动态调用最新信息辅助图像生成,并实现跨语言文本的精准渲染与翻译。
实际应用测试显示,中文场景下的字符识别准确率较前代提升超过80%,复杂语义结构的图像生成错误率下降65%。某科技媒体进行的对比实验表明,在涉及多人物互动的场景中,新模型的角色一致性指标达到92.7%,较前代提升23个百分点。
在部署范围上,谷歌计划将该模型同步上线至Gemini应用、Google搜索(AI模式与Lens)、AI Studio开发平台等12个核心产品矩阵。服务区域将扩展至141个新增市场,支持阿拉伯语、印地语等8种新语言环境。值得注意的是,Gemini应用将默认启用Nano Banana 2作为图像生成引擎,专业版用户仍可通过菜单切换回前代Pro版本。
技术团队透露,新模型采用分层渲染架构,通过分离语义解析与视觉生成模块,在保持生成速度的同时提升复杂场景的处理能力。谷歌云部门同步宣布,Vertex AI平台将开放模型微调接口,允许企业客户基于自有数据训练定制化图像生成模型。











