苹果公司正在秘密推进一款名为Manzano的新型图像模型研发项目,该模型同时具备图像理解与生成双重能力。尽管目前尚未正式发布,但项目团队已通过预印本论文披露了技术细节,并展示了部分低分辨率样例图像。
与传统开源模型不同,Manzano采用创新性的混合图像分词器架构。其核心共享编码器能够同时输出连续型标记与离散型标记,这种设计有效解决了图像理解与生成任务间的冲突问题。项目负责人透露,该架构通过动态分配计算资源,使模型在处理复杂场景时更具灵活性。
整个系统由三大模块构成:混合分词器负责图像特征提取,统一语言模型处理多模态信息融合,独立图像解码器则提供三种不同分辨率的输出方案。其中解码器特别开发了基础版、高清版和超清版,分别对应720P、4K及8K分辨率的图像生成需求。
在训练阶段,研发团队使用了规模庞大的图文对数据集。内部测试数据显示,Manzano在处理文字密集型图像任务时表现突出,例如包含复杂排版的设计图或带有多语言文本的场景。性能评估表明,模型能力随参数规模扩大呈现稳定提升趋势。
苹果方面承认,当前版本的基础模型在综合性能上仍落后于行业顶尖水平。但研究团队强调,Manzano的模块化设计使其具备快速迭代潜力,后续版本将重点优化高分辨率场景下的细节表现和计算效率。目前该项目仍处于实验室阶段,具体发布时间尚未确定。