国际机器学习大会(ICML)近期落幕,快手携手上海交通大学推出了一款名为Orthus的多模态生成理解模型,该模型已正式对外开源。这款创新之作基于自回归Transformer架构,实现了文本与图像间的无缝转换,展现了卓越的生成能力。
Orthus的核心优势在于其高效的计算性能和强大的学习能力。研究显示,即便在有限的计算资源下,该模型在多项图像理解指标上仍超越了现有的混合理解生成模型,例如Chameleon和Show-o。尤其在文生图生成的Geneval指标上,Orthus的表现尤为突出,甚至超过了专为该任务设计的扩散模型SDXL。
Orthus不仅在处理文本与图像交互关系上表现出色,还在图像编辑和网页生成等领域展现出巨大潜力。其架构设计精妙,以自回归Transformer为主干网络,配备专门用于生成文本和图像的模态生成头。这一设计巧妙地分离了图像细节建模与文本特征表达,使模型能够专注于构建文本与图像之间的复杂联系。
该模型由多个关键组件构成,包括文本分词器、视觉自编码器以及针对两种模态的嵌入模块。这些组件共同协作,将文本和图像特征融合到一个统一的表示空间中,使主干网络在处理模态间依赖关系时更加高效。在推理阶段,模型会根据特定标记,以自回归方式生成下一个文本token或图像特征,展现出高度的灵活性。
Orthus的创新设计不仅解决了端到端扩散建模与自回归机制之间的冲突,还有效减少了图像离散化带来的信息损失。这一成果被视为是何恺明在图像生成领域MAR工作的多模态拓展,具有重要的学术和应用价值。