原本,小雷以为今年下半年AI圈子的热闹,也就是那样了。
闭源这边,由Gemini 3 Pro驱动的Nano-Banana Pro,几乎改变了大家对于平面设计的认知;开源这边,Flux 2.0的突然开源,也让普通人能够自行部署的图像生成效果大大提升,只要优化做得好,人人都能跑出像模像样的图。
那时候同事还跟我打赌,说这两款大模型的风潮,最起码能领跑个半年。
结果没想到,打脸来得这么快。
就在这两天,阿里的通义千问团队突然甩出了一张王炸——Z-image,上线即登顶开源社区热门榜第一位。
在这组图片中,只有Nano-Banana Pro能够还原出纪录片拍摄的界面和质感。
至于Z-image和豆包,他俩在这张图片上的表现其实相差无几,但是Z-image图片的一致性则明显有点偏高,多次反复尝试,在相同参数下得出来的结果都是极为相似的,根据网友分析,可能是内置参数带来的影响。
这组图很有意思,可以看出,在更新迭代后,Nano-Banana Pro应对一般的中文嵌入已经没啥问题了。
论细节和光影的话,这我觉得大家都在伯仲之间。
既然单格图片问题不大,那么多格图片教程又如何呢?
Prompt:手账风格,出一个番茄炒蛋的制作步骤教程图,步骤说明要中文,落款是##。
这一对比,差距马上就出来了,只有Nano-Banana Pro知道两位角色,构图也很有意思,豆包虽然没有洛天依的概念,但是起码还有个构图的优势,Z-Image就是根本不知道在干些什么了。
只能说,在知识量这块,Z-Image确实还是比不上闭源模型。
至于图生图,或者图片编辑之类的能力,目前开源的Z-Image-Turbo是没有的,咱们还是等等Z-Image-Edit吧。
评测总结:
堪称图片AIGC开源界扛把子?
测完这几轮,小雷心里的评价大概有了谱。
Z-image强吗?强。
在中文语境的理解、在单张图片的审美、以及最重要的——在硬件资源的利用率上,它简直是当下开源界的T0级别。
虽然在复杂推理和精准编辑上,它还打不过Nano-Banana Pro这样的闭源大佬,目前也缺失了图片编辑相关的能力,但在90%的日常使用场景里,它已经能做到“够用”甚至“好用”。
这对于那些想尝试AIGC的中小企业,或者是像我们这种想在本地搞搞创作的个人用户来说,意义太大了。
而且别忘了,它是开源的。
这意味着什么?意味着明天可能就会有大神在它的基础上,训练出专门画二次元的、专门画建筑设计的、专门做电商海报的各种微调模型。
就像当年的安卓手机一样,一开始可能不如苹果流畅,但架不住玩的人多、改的人多,生态一旦起来了,那爆发力是惊人的。
所以,如果你问小雷:Z-image值得折腾吗?
我的回答是:只要你有张显卡,哪怕是入门级的,都值得下下来玩玩。
毕竟,不用花钱,不用买昂贵的算力,就能在自己硬盘里养一个随叫随到的画手,这种把技术握在自己手里的感觉,可是那些在线生成平台给不了的。
而且按照阿里这个“卷”法,我有预感,明年这个时候,我们可能就能在手机上跑这种级别的模型了。








