meta旗下基础人工智能研究团队(FAIR)近日宣布开源新一代人工智能模型TRIBE v2,该模型通过多模态融合技术实现了对人类大脑活动的精准预测,无需依赖侵入式测量即可生成高分辨率脑活动图谱。这一突破性成果有望革新神经科学研究范式,显著降低实验成本并缩短研究周期。
传统神经科学研究依赖功能性磁共振成像(fMRI)技术,但该技术存在明显局限:心跳、呼吸等生理噪声会干扰信号采集,且设备昂贵导致研究门槛较高。TRIBE v2通过创新算法架构突破了这些瓶颈,其核心机制在于整合视频、音频和文本三种模态信息。模型首先利用Video-JEPA-2、Wav2Vec-Bert-2.0和Llama 3.2三个预训练模型分别提取特征,再通过Transformer架构进行跨模态融合,最终输出包含7万个三维像素的脑活动预测图。
实验数据显示,该模型的预测精度超越传统线性模型,在视觉、听觉和语言刺激场景下均表现出色。当处理多模态输入时,大脑颞顶枕交界区域的预测准确率较单模态提升50%。在视觉实验中,模型成功定位到负责处理面部、场景和身体信息的专用脑区;语言实验则复现了经典神经语言学发现,包括言语与沉默、情感与疼痛等认知状态的神经表征差异。
技术团队特别强调了模型的泛化能力。通过微调训练,TRIBE v2可快速适应新研究对象,无需重新构建模型。随着训练数据量的增加,预测准确性呈现稳定提升趋势。这种特性使其特别适合大规模脑科学研究项目,能够显著减少对重复性脑扫描的依赖。
尽管取得重大进展,该模型仍存在技术局限。由于依赖血流动力学数据,其时间分辨率仅能达到秒级,无法捕捉毫秒级的神经电活动。当前版本仅涵盖视觉、听觉和语言三种感官模态,触觉和嗅觉信息的整合尚未实现。研究团队正在开发下一代模型,计划通过引入更高时间分辨率的成像技术来突破现有瓶颈。
meta已将TRIBE v2的完整代码和预训练权重向学术界开放,此举将加速脑科学研究的数字化转型。潜在应用场景包括优化脑机接口设计、开发类脑计算架构以及辅助神经退行性疾病诊断。研究人员可通过模拟实验验证假设,大幅减少对昂贵脑成像设备的依赖,从而推动神经科学进入计算驱动的新时代。










