商汤科技与南洋理工大学S-Lab实验室联合宣布,推出全球首个原生多模态架构NEO,并同步开源20亿(2B)与90亿(9B)参数规模的预训练模型。该架构突破传统多模态模型“视觉编码器+投影层+语言模型”的堆叠式设计,通过重构注意力机制、位置编码和语义映射等核心模块,在数据效率与计算性能上实现显著突破。据官方披露,NEO在同等性能水平下所需训练数据仅为行业平均值的十分之一,首次实现从图像像素到语义token的端到端连续映射。
技术层面,NEO架构采用三大创新设计:原生图块嵌入层直接处理原始像素数据,摒弃传统需要独立图像分词器的方案;三维旋转位置编码(Native-RoPE)创新性地在统一向量空间中编码文本与视觉信号的时空频率特征;多头注意力机制采用“视觉双向建模+文本自回归生成”的混合计算模式,使空间结构关联度提升24%。这些改进使得模型在0.6亿至8亿参数区间内,于ImageNet图像分类、COCO目标检测和Kinetics-400视频理解三大基准测试中均取得最优(SOTA)成绩,同时在边缘设备上的推理延迟控制在80毫秒以内。
开源社区已同步上线模型权重文件与完整训练脚本,开发者可基于MIT协议自由使用。商汤科技进一步透露,2025年第一季度将追加开源支持3D空间感知与动态视频理解的扩展版本。行业分析指出,NEO架构通过深度融合视觉与语言模态的底层表征,打破了传统多模态模型“模块拼接”的技术范式,为移动端和物联网设备部署高性能小模型提供了全新技术路径。该成果在GitHub发布后,已获得超过3000名开发者的关注,预训练模型下载量突破5万次。











