在科技界的万众瞩目下,谷歌悄然推出了一款名为gemini-2.5-flash-image-preview的图像生成与编辑模型,此前它以“nano banana”的昵称在坊间流传,引发了不少猜测与期待。
这款模型的问世,标志着谷歌在图像生成技术上的又一重大突破。据官方介绍,gemini-2.5-flash-image-preview不仅拥有顶尖的图像生成与编辑能力,还能在保持角色高度一致性的同时,实现闪电般的处理速度。这一特性,无疑为图像创作与编辑领域带来了全新的可能。
谷歌官方通过一系列示例展示了该模型的强大功能。无论是换装、换场景,还是多轮编辑、混合设计,gemini-2.5-flash-image-preview都能轻松应对,且保持生成图像的高质量与角色一致性。尤为该模型还能利用Gemini的世界知识,解锁更多应用场景,如将画布变为交互式教育导师等。
在用户体验方面,gemini-2.5-flash-image-preview也表现得相当出色。它支持32k上下文,提供了温度控制等高级设置,让用户能够更灵活地调整生成图像的风格与创造力。该模型还已在Google AI Studio和Gemini API中提供预览,用户可以免费试用,感受其带来的便捷与乐趣。
值得注意的是,尽管gemini-2.5-flash-image-preview在图像生成与编辑方面表现出色,但目前它尚不支持中文输入。这意味着,对于中文用户而言,他们可能无法直接通过输入中文指令来生成或编辑图像。不过,谷歌方面表示,他们正在不断努力改进模型,以期在未来实现更多语言的支持。
在价格方面,gemini-2.5-flash-image-preview也展现出了其竞争力。据官方介绍,该模型的输入/输出文本价格为0.3/2.5美元,输入/输出图像价格为0.3/30美元。相较于其他图像生成模型,这一价格无疑更加亲民。据估算,该模型生成每张图像的成本大约为0.039美元(约0.28元人民币),远低于OpenAI的图像生成成本。
随着gemini-2.5-flash-image-preview的正式上线,它也迅速在各大榜单上崭露头角。在Artificial Analysis图像编辑排行榜上,该模型一跃成为榜首,获得了1212的ELO分数。而在文生图榜单上,虽然字节跳动的即梦3.0和OpenAI的GPT-4o仍占据一定优势,但gemini-2.5-flash-image-preview的崛起无疑给这一领域带来了新的竞争格局。
谷歌首席科学家Jeff Dean以及诺奖得主、DeepMind创始人兼CEO Demis Hassabis等业界大佬也纷纷试用了该模型,并分享了自己的创作成果。网友们也不甘落后,纷纷上传自己的照片进行尝试,创作出了许多有趣且富有创意的图像。