ITBear旗下自媒体矩阵:

苹果自研多模态AI模型Manzano:混合分词器架构,解码器三版本支持多分辨率

   时间:2025-09-28 12:14:53 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

苹果公司正在秘密推进一项名为Manzano的图像模型研发项目,该模型试图在图像理解与生成两大领域实现突破性整合。目前这项研究仍处于实验室阶段,仅通过预印本论文披露了技术框架,并释放了少量低分辨率演示图像。

技术文档显示,Manzano系统由三大核心模块构成:负责特征提取的混合分词器、处理多模态数据的统一语言模型,以及支持动态分辨率的图像解码器。其中解码器特别开发了轻量版、标准版和专业版三种形态,分别对应720P、1080P和4K级输出能力。训练阶段使用了超过20亿组图文对数据,内部测试表明该模型在处理包含复杂文本的图像场景时,准确率较同类产品提升37%。

性能曲线分析显示,Manzano的各项指标随模型规模扩大呈现显著提升趋势,这印证了研发团队关于"规模效应"的假设。不过苹果工程师坦承,当前基础版本在细节渲染精度和语义理解深度上,仍与行业顶尖水平存在15%-20%的差距。他们计划通过引入三维空间感知模块和动态注意力机制,在后续版本中弥补这些短板。

这项研究引发了AI领域的广泛关注。有专家指出,Manzano采用的混合编码方案可能为多模态大模型开辟新的技术路径,但其复杂的架构设计也对硬件算力提出了更高要求。苹果方面表示,该模型未来将优先应用于增强现实和内容创作领域,具体商业化时间表尚未确定。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version