百度文心大模型团队近日宣布开源文生图模型ERNIE-Image及其轻量化版本ERNIE-Image-Turbo,在开源社区引发广泛关注。该模型参数规模仅80亿,可在配备24GB显存的消费级GPU上运行,显著降低了专业级图像生成技术的使用门槛。技术报告显示,其在Geneval、OneIG等国际权威基准测试中综合得分位居开源模型首位,尤其在复杂文字渲染能力方面达到商业闭源模型水准。
模型架构采用单流Diffusion Transformer(DiT)设计,创新性地集成提示词增强模块(Prompt Enhancer)。该模块能自动将简短输入转化为结构化描述,有效提升对复杂指令的理解能力。测试数据显示,标准版推理需50步完成,而Turbo版通过动态步长优化和强化学习技术,将推理步数压缩至8步,在保持85%画面质量的同时实现6倍速度提升。
实测环节采用六组高难度测试用例,涵盖多语言混排、漫画分镜叙事、数据可视化等复杂场景。在多主体空间控制测试中,模型准确还原了包含七件物品的桌面场景,物品位置、尺寸及遮挡关系完全符合指令要求。数据图表生成测试显示,模型能精确呈现表格数据与条形图配色,仅出现一处模型名称遗漏的微小误差。光影效果测试中,伦勃朗布光指令得到完整执行,人物面部光影过渡自然,背景纯黑无纹理干扰。
文字渲染能力呈现明显优劣势。在生成"鬱鬱蔥蔥"等生僻汉字时,模型出现字形替换错误,复杂汉字"龑""靐"未能正确呈现。中英日韩四语混排测试中,英文单词"Knowledge"缺失字母"e",韩文短语存在字符变形。但LongText-Bench专项评测显示,其英文文字渲染得分达0.9804,中文得分0.9661,在开源模型中排名第一,与商业模型Nano Banana 2.0差距不足2%。
部署方案兼顾灵活性与效率。开发者可通过Hugging Face的diffusers库直接调用,或使用SGLang框架构建服务端应用。特别设计的模块化架构支持将提示词增强模块与主干网络分离部署,在在线生成场景中可降低30%响应延迟。配套发布的AI-Toolkit工具包提供完整微调训练流程,支持开发者基于自有数据集优化模型表现。
国际基准测试数据印证技术实力。Geneval通用图像生成测试中,ERNIE-Image以0.8856分超越Qwen-Image等竞品。OneIG中文评测榜单显示,其在多样性维度取得0.2478的最高分,综合得分仅次于Nano Banana 2.0。值得关注的是,模型在推理速度维度表现突出,Turbo版在保持竞争力的同时,硬件需求较同类模型降低60%。
开源协议采用Apache 2.0许可,代码库上线首周即获得78颗星标。配套发布的ComfyUI工作流模板和GGUF格式量化方案,进一步简化模型集成流程。技术团队透露,后续优化将聚焦语义理解精度提升,重点解决多角色交互场景中的指令歧义问题,为专业内容生产场景提供更可靠的技术支撑。











