谷歌DeepMind在图像技术领域迈出了重要一步,近日正式推出了其最新的图像生成与编辑模型——Gemini 2.5 Flash Image。这款模型在Gemini应用中,能够依据用户的文字指令,对图片进行精细修改,同时保持人物与动物外观的自然一致。
据官方介绍,Gemini 2.5 Flash Image相较于之前的图像生成工具,在根据文字指令修改图片时的准确率有了显著提升。谷歌自豪地宣布,该模型在多项任务中的表现优于ChatGPT所使用的GPT-4,特别是在图像编辑领域,它能够根据用户的文字提示,自动进行精准编辑。
Gemini 2.5 Flash Image还支持通过文本提示进行局部精确编辑。用户无需手动选择区域,即可实现模糊背景、去除瑕疵、添加颜色或擦除物体等操作。该模型还具备强大的图像融合能力,能够一次性融合最多三张图像。
目前,用户可以通过Gemini App或API等方式访问这款先进的图像编辑模型。其API定价也相当合理,每百万输出token仅需30美元,单张图像的处理成本约为0.039美元。这一创新技术的推出,无疑将为图像编辑领域带来全新的变革。