苹果公司近日宣布推出一项名为《Pico-Banana-400K:面向文本引导图像编辑的大规模数据集》的研究成果,并同步公开了包含40万张图像的完整数据集。该数据集采用非商业性研究许可协议发布,允许全球学术机构和研究人员自由使用,但明确禁止商业用途。这一举措旨在解决当前图像编辑领域数据集质量参差不齐、共享性受限等核心问题。
研究团队指出,尽管近年来图像生成与编辑技术取得显著突破,但开放研究仍面临关键瓶颈。现有数据集普遍存在三大缺陷:依赖专有模型生成的合成数据、人工筛选子集规模有限、以及领域偏移与质量控制不一致等问题。这些缺陷直接导致鲁棒图像编辑模型的开发受阻。为突破这一局限,苹果团队历时数月构建了Pico-Banana-400K数据集。
该数据集的构建流程体现了严格的筛选机制。研究人员首先从OpenImages数据集中精选涵盖人物、物体及文字场景的多样化真实照片,随后设计了35类图像修改指令,并划分为八大编辑类别。具体包括像素与光度调整(如添加复古滤镜)、以人为中心的编辑(如生成Funko-Pop风格形象)、场景构成编辑(如天气条件变换)、对象级语义修改(如物体空间关系调整)等。
在技术实现层面,团队采用谷歌的Gemini-2.5系列模型完成核心工作。每张原始图像与编辑指令输入至Nanon-Banana模型(即Gemini 2.5-Flash-Image)生成编辑结果后,需通过Gemini 2.5-Pro模型的双重验证:评估编辑是否精准遵循指令,并确保视觉质量达标。只有通过严格筛选的样本才会被纳入最终数据集。
数据集的创新性体现在其结构设计上。除包含单轮编辑样本外,还首次引入多轮连续编辑序列,模拟真实场景中的渐进式修改需求。更值得关注的是"偏好对"样本的收录——通过对比成功与失败的编辑结果,为模型提供区分优质输出的学习范例。这种设计有助于提升下一代文本引导图像编辑模型的判断能力。
研究团队坦承,当前使用的Nanon-Banana模型在精细空间控制、布局外推及文字排版处理方面仍存在改进空间。但他们强调,Pico-Banana-400K的核心价值在于为行业提供首个可复现、高质量的训练与评测基准。目前,相关研究论文已上线预印本平台arXiv,完整数据集则在GitHub平台向全球研究者开放下载。








