人工智能图像生成领域正面临一场关于评测标准的深刻反思。澳大利亚国立大学与Canva研究院联合发布的研究指出,长期作为行业“金标准”的ImageNet-FID分数,在实际应用场景中可能存在严重误导性。这项以预印本形式公开的研究(arXiv:2606.24888)通过构建统一训练框架,揭示了不同评测任务间成绩的显著背离现象。
研究团队开发的NANOGEN框架实现了两大核心突破:首先通过解耦扩散变换器架构,将模型分为编码器与解码器两部分,前者负责语义理解,后者专注图像生成;其次通过“上下文内条件”机制,使模型仅需修改12行配置文件即可在ImageNet生成与文本生成图像(T2I)任务间切换。这种设计消除了传统方法因任务差异导致的工程摩擦,为跨任务比较提供了公平基准。
实验数据呈现出令人震惊的负相关现象:在ImageNet上FID分数越低(表现越好)的模型,在文本生成图像任务中的Geneval指标反而越差。以SpatialPE-L方法为例,其ImageNet FID达优秀水平,但在三个文本生成指标中均垫底。皮尔逊相关系数显示,ImageNet-FID与Geneval、DPG-Bench、GenAIBench的相关性分别为-0.555、-0.580和-0.377,表明两个评测维度存在系统性偏差。
针对这一发现,研究团队推出DIFFUSIONBENCH综合评测体系,该体系同时包含ImageNet和文本生成图像任务。在ImageNet端,除传统FID指标外,新增IS、FDr(使用五种视觉编码器计算)和MIND指标;在文本生成端,采用Geneval、DPG-Bench和GenAIBench三个维度。这种多指标组合评测方式,有效避免了单一指标的局限性。
训练成本分析颠覆了行业认知。在32块H200 GPU环境下,潜空间方法的ImageNet训练时间(8-12小时)与文本生成图像训练时间(10-13小时)高度接近,证明文本生成任务并未带来显著计算负担。研究特别指出,所有实验均可在8块GPU环境下复现,大幅降低了研究门槛。
与公开大模型的对比显示,NANOGEN训练的6亿参数模型在绝对性能上落后于SD3.5-Large(80亿参数)等商业模型,但在相同实验规模下展现出显著优势。例如E2E-Qwen-Image-VAE方法仅训练10万步,Geneval指标即达0.691,超越RAEv2框架训练150万步的0.624分,证明其技术路线的有效性。
研究同时暴露出现有评测体系的深层问题。当训练步数从10万增至20万时,量化指标提升微弱,但视觉质量改善显著,这表明现有工具难以捕捉细微质量差异。研究团队呼吁开发更具挑战性的评测机制,防止模型通过针对性优化“刷分”。
这项研究引发学界对评测标准设计的深度思考。研究者形象比喻:当前状况如同“驾照考试仅考倒车入库,却忽视高速驾驶能力”。虽然ImageNet-FID仍是低成本的研究工具,但将其作为唯一标准可能导致技术发展偏离实际应用需求。真正的进步应体现在跨任务能力的同步提升,而非单一指标的优化。











