滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

百度开源ERNIE-Image文生图模型：消费级GPU可运行，文字渲染能力比肩商业顶尖

时间：2026-04-16 01:23:43 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

百度文心大模型团队近日宣布开源文生图模型ERNIE-Image及其轻量化版本ERNIE-Image-Turbo，在开源社区引发广泛关注。该模型参数规模仅80亿，可在配备24GB显存的消费级GPU上运行，显著降低了专业级图像生成技术的使用门槛。技术报告显示，其在Geneval、OneIG等国际权威基准测试中综合得分位居开源模型首位，尤其在复杂文字渲染能力方面达到商业闭源模型水准。

模型架构采用单流Diffusion Transformer（DiT）设计，创新性地集成提示词增强模块（Prompt Enhancer）。该模块能自动将简短输入转化为结构化描述，有效提升对复杂指令的理解能力。测试数据显示，标准版推理需50步完成，而Turbo版通过动态步长优化和强化学习技术，将推理步数压缩至8步，在保持85%画面质量的同时实现6倍速度提升。

实测环节采用六组高难度测试用例，涵盖多语言混排、漫画分镜叙事、数据可视化等复杂场景。在多主体空间控制测试中，模型准确还原了包含七件物品的桌面场景，物品位置、尺寸及遮挡关系完全符合指令要求。数据图表生成测试显示，模型能精确呈现表格数据与条形图配色，仅出现一处模型名称遗漏的微小误差。光影效果测试中，伦勃朗布光指令得到完整执行，人物面部光影过渡自然，背景纯黑无纹理干扰。

文字渲染能力呈现明显优劣势。在生成"鬱鬱蔥蔥"等生僻汉字时，模型出现字形替换错误，复杂汉字"龑""靐"未能正确呈现。中英日韩四语混排测试中，英文单词"Knowledge"缺失字母"e"，韩文短语存在字符变形。但LongText-Bench专项评测显示，其英文文字渲染得分达0.9804，中文得分0.9661，在开源模型中排名第一，与商业模型Nano Banana 2.0差距不足2%。

部署方案兼顾灵活性与效率。开发者可通过Hugging Face的diffusers库直接调用，或使用SGLang框架构建服务端应用。特别设计的模块化架构支持将提示词增强模块与主干网络分离部署，在在线生成场景中可降低30%响应延迟。配套发布的AI-Toolkit工具包提供完整微调训练流程，支持开发者基于自有数据集优化模型表现。

国际基准测试数据印证技术实力。Geneval通用图像生成测试中，ERNIE-Image以0.8856分超越Qwen-Image等竞品。OneIG中文评测榜单显示，其在多样性维度取得0.2478的最高分，综合得分仅次于Nano Banana 2.0。值得关注的是，模型在推理速度维度表现突出，Turbo版在保持竞争力的同时，硬件需求较同类模型降低60%。

开源协议采用Apache 2.0许可，代码库上线首周即获得78颗星标。配套发布的ComfyUI工作流模板和GGUF格式量化方案，进一步简化模型集成流程。技术团队透露，后续优化将聚焦语义理解精度提升，重点解决多角色交互场景中的指令歧义问题，为专业内容生产场景提供更可靠的技术支撑。

更多>同类资讯

从互联网到高科技：阿里“变脸”聚焦科技，加大投入引领行业新方向

在短短3、4年时间里，达摩院打造了一系列基于大数据、云计算的重要科技产品。与此同时，平头哥也打造了包括玄铁、含光等在内的一系列芯片产品。除此之外，平台哥还设计出了“无剑”芯片设计平台，帮助一些中小企业都能独立…

05-21

SpaceX递交上市文件：Q1收入46.9亿美元

05-21

OpenAI最早周五秘密提交IPO申请

05-21

DeepSeek组建Harness团队，非「超能力者」不要？中国AI开启「做产品」的关键一跳

05-21

Google和DeepMind，仍然不是一条心

05-21

摩尔线程发布 AICUBE：AI Agent 开始进入家庭

05-21

东方甄选所售蛋糕发霉，商家仅强制退款

05-21

热AI驱动 | 一图看懂2026快手磁力引擎内容消费商业大会核心干货

05-21

字节跳动懂车帝业务大调整！

05-21

冲刺9月上市，OpenAI最快本周五提交IPO招股书草案

05-21

SpaceX IPO招股书揭示家底：连接业务独撑盈利，航天和AI业务亏损

05-21

三星超越苹果拿下手机满意度第一

05-21

卢伟冰亲自爆料小米17 Max：小米17的“全面升舱版”

05-21

Anthropic有望2026Q2实现首个盈利季度，跑赢OpenAI与xAI

05-21

SpaceX计划在五年内实现每年1万次发射马斯克：最便宜AI算力在太空

05-21

点击查看更多 +

全站最新

雷军透露小米YU7 GT定价策略：高端定位或致价格偏高

特斯拉监督版FSD布局更新：多城招聘智驾测试员加速中国落地进程

大模型时代新职业崛起：AI数据“炼金师”如何用专业重塑数据标注？

抖音“续火花”玩法大揭秘：赛博养娃成新潮流，用户热情持续高涨

自然吸气发动机养护秘籍：掌握4个关键细节，轻松开十年不坏

《全域出行报告揭秘：千里科技如何以高“含模量”智驾领跑未来出行》

热门内容

本栏最新

雷军透露小米YU7 GT定价策略：高端定位或致价格偏高

大模型时代新职业崛起：AI数据“炼金师”如何用专业重塑数据标注？

抖音“续火花”玩法大揭秘：赛博养娃成新潮流，用户热情持续高涨

雷军透露小米YU7 GT定位高端：性能豪华拉满价格或偏高

小米YU7 GT纽北一骑绝尘！7分34秒931创SUV圈速新纪录

小米YU7 GT配色内饰双揭秘：五款车漆搭配两种豪华内饰风格

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.