谷歌旗下图像生成模型Nano Banana正式开放API接口,开发者可通过Gemini API将其嵌入自有产品,企业用户也可实现批量调用以支持大规模内容生产。对于偏好简化操作的用户,Google AI Studio平台仍提供直接使用渠道,用户可在Build板块输入指令,快速生成定制化应用。
此次更新带来两项核心功能升级。首先是画幅比例自定义,用户可在AI Studio中预设16:9、9:16、4:3、3:2等十余种宽高比,模型将严格遵循该比例生成图像。这种设计覆盖了横屏电影、竖版短视频、方形社交封面等多元场景需求,例如16:9比例适合呈现风光大片的沉浸感,9:16比例则适配手机竖屏的视觉冲击力。
第二项功能为纯图像输出模式,该模式仅返回视觉内容,不附带文本描述。此举可减少token消耗,避免上下文干扰,尤其适用于电商展示、设计工具等需要实时预览的场景。两项功能均指向内容创作者的实际需求,显示出谷歌推动模型从技术工具向实用解决方案转型的意图。
关于API定价,官方披露每百万图像输出token收费30美元,单张最大尺寸1024x1024像素的图像约消耗1290个token,折合每张0.039美元。对比Gemini 2.5 Flash文本模式,图像生成成本为其12倍。开发者可通过谷歌开发者手册获取详细接入指南。
实测显示,不同画幅比例在场景适配上存在显著差异。以4:3比例为例,该比例因早期电视标准属性,能营造独特的怀旧氛围,适合呈现梦核风格的都市夜景;而3:2比例接近人眼视觉,在风光摄影中可灵活展现山川或天空,后期裁切空间较大。用户输入具体参数后,模型可生成符合设备特性的专业级图像,例如使用Nikon Z7 II相机搭配广角镜头拍摄的16:9电影级画面。
市场动态方面,尽管Reddit社区近期因Sora邀请码交易引发关注,单条价格一度超过10美元,但Gemini仍稳居苹果App Store AI应用榜首。短视频领域涌现的GPT类应用尚未对其地位构成实质性威胁。
相关技术文档可通过谷歌开发者平台查阅,具体包括API定价说明、功能使用规范及接入教程。