ITBear旗下自媒体矩阵:

​苹果自研多模态AI模型Manzano:融合理解与生成,未来潜力待验证​

   时间:2025-09-28 09:41:46 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

苹果公司正在秘密推进一款名为Manzano的新型图像模型研发项目,该模型同时具备图像理解与生成双重能力。尽管目前尚未正式发布,但项目团队已通过预印本论文披露了技术细节,并展示了部分低分辨率样例图像。

与传统开源模型不同,Manzano采用创新性的混合图像分词器架构。其核心共享编码器能够同时输出连续型标记与离散型标记,这种设计有效解决了图像理解与生成任务间的冲突问题。项目负责人透露,该架构通过动态分配计算资源,使模型在处理复杂场景时更具灵活性。

整个系统由三大模块构成:混合分词器负责图像特征提取,统一语言模型处理多模态信息融合,独立图像解码器则提供三种不同分辨率的输出方案。其中解码器特别开发了基础版、高清版和超清版,分别对应720P、4K及8K分辨率的图像生成需求。

在训练阶段,研发团队使用了规模庞大的图文对数据集。内部测试数据显示,Manzano在处理文字密集型图像任务时表现突出,例如包含复杂排版的设计图或带有多语言文本的场景。性能评估表明,模型能力随参数规模扩大呈现稳定提升趋势。

苹果方面承认,当前版本的基础模型在综合性能上仍落后于行业顶尖水平。但研究团队强调,Manzano的模块化设计使其具备快速迭代潜力,后续版本将重点优化高分辨率场景下的细节表现和计算效率。目前该项目仍处于实验室阶段,具体发布时间尚未确定。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version