苹果公司正在秘密开发一款名为Manzano的新型多模态图像模型,该模型将图像理解与生成能力整合于同一架构中。这一突破性设计旨在解决当前开源模型普遍存在的功能割裂问题——多数系统只能专注于分析或创作中的单一方向,而无法同时兼顾两者。
研发团队在预印本论文中披露,现有技术路线存在根本性矛盾:连续数据流更适合语义解析,离散符号系统则擅长内容生成。当模型同时处理两类任务时,不同工具链之间的冲突会导致性能下降。苹果通过创新性的混合分词器架构,成功化解了这一技术瓶颈。
该模型的核心创新在于共享编码器设计。系统在处理图像时,会同步输出两种标记类型:连续浮点标记用于深度理解任务,离散分类标记支持创意生成。这种双重标记机制使模型在文档解析、图表分析等文字密集型场景中表现突出,在内部测试的ScienceQA等基准测试中,300亿参数版本创造了新的成绩纪录。
架构设计方面,Manzano采用三段式结构:前端混合分词器负责数据预处理,中间统一语言模型进行多模态推理,后端独立解码器完成图像输出。苹果特别开发了9亿、17.5亿和35.2亿三种参数规模的解码器,支持从256像素到2048像素的分辨率输出,满足不同应用场景需求。
训练过程采用三阶段渐进式策略,共消耗23亿对图文训练样本和10亿对文本图像样本,累计处理1.6万亿标记。值得注意的是,训练数据中包含来自DALL-E3和ShareGPT-4o等模型的合成数据,这种跨系统数据融合策略显著提升了模型的泛化能力。
性能对比测试显示,Manzano在多模态综合能力上已接近商业系统水平。在30亿参数规模下,与专业系统的差距控制在1分以内。图像生成测试中,模型展现出复杂指令执行、风格迁移、多图层合成等高级能力,特别是在包含大量文本的图像场景中表现优异。
模块化设计是该系统的另一大亮点。各组件可独立升级优化,这种灵活性使模型能快速吸收计算机视觉、自然语言处理等不同领域的研究成果。苹果工程师透露,这种设计为未来多模态AI的演进提供了可扩展的技术框架。
尽管取得技术突破,苹果在基础模型领域仍面临挑战。当前系统整体性能与行业领先者存在差距,即便在新一代端侧AI框架部署后,iOS 26的Apple Intelligence仍计划集成OpenAI GPT-5。Manzano的推出更多是技术储备的展示,其对外部模型的替代效果仍有待后续版本验证。