当顶尖AI研究者纷纷警示“单纯堆砌算力与数据难以为继”时,一场关于多模态大模型的架构革命正在悄然发生。商汤科技联合南洋理工大学等机构推出的全球首个开源原生多模态架构NEO,以颠覆性的设计理念在AI领域投下一枚重磅炸弹。这个以《黑客帝国》主角命名的新架构,用十分之一训练数据便在多项评测中比肩旗舰级模型,重新定义了多模态模型的构建范式。
传统多模态模型采用模块化拼接方式,将视觉编码器与语言模型通过投影层连接。这种“先分后合”的架构导致三大技术瓶颈:训练流程复杂导致效率低下,视觉编码器的固定分辨率限制对复杂场景的理解能力,表层映射难以实现视觉与语言的深层语义对齐。以图表描述任务为例,现有模型常混淆图例与数据;在空间指令理解中,左右方位与数量判断错误率高达30%。这些缺陷暴露出模块化架构在处理细粒度视觉推理时的根本性局限。
NEO架构的核心突破在于构建视觉与语言共生的统一模型。研究团队摒弃模块化思维,从第一性原理出发设计三大原生技术:原生图块嵌入层通过两层卷积神经网络直接处理像素,生成连续高保真视觉表征;原生三维旋转位置编码为图像高度、宽度分配高频编码,为文本时间轴设计自适应频率,实现时空坐标系的智能适配;原生多头注意力机制让文本采用因果注意力、图像采用全双向注意力,形成“左右脑协同”的推理模式。这些创新使模型能同时捕捉图像纹理细节与文本长程依赖,在“猫在盒子内外”等空间关系判断中准确率提升至92%。
配套的Pre-Buffer & Post-LLM双阶段训练策略解决了原生架构训练难题。预训练初期将模型临时划分为视觉融合模块与语言继承模块,前者在后者的引导下高效学习视觉知识,逐步建立像素-词语对齐。随着训练深入,模块边界逐渐消失,最终形成端到端的统一模型。这种渐进式融合策略既保留了预训练语言模型的强大能力,又实现了视觉知识的无损迁移,在3.9亿图像文本对的训练数据量下达到传统模型十倍数据的效果。
实测数据显示,NEO在MMMU多学科理解、MMBench综合能力的等权威基准测试中全面领先。在2B至8B参数规模的中小模型领域,其推理成本较同类模型降低65%,却能保持同等精度水平。这种性价比优势使其在边缘设备部署上展现巨大潜力:智能汽车可实时识别复杂路况,工业机器人能精准理解操作指令,AR眼镜可自然交互三维空间信息。商汤同步开源的2B与9B规格模型,已吸引全球开发者构建超过50个下游应用。
这场架构革命正在引发连锁反应。开源社区出现多个基于NEO的改进模型,学术界开始重新审视多模态模型的评估标准,产业界加速调整技术路线图。某头部手机厂商透露,其下一代AI助手将采用NEO架构实现实时场景理解;自动驾驶公司正在测试该架构在动态障碍物识别中的表现。当行业陷入“规模竞赛”迷思时,NEO用原生设计证明:真正的智能突破不在于参数数量,而在于架构对信息本质的理解能力。这种回归智能本质的探索,或许正是通往通用人工智能的关键路径。











