科技领域迎来一项突破性进展:meta基础人工智能研究团队(FAIR)近日宣布开源一款名为TRIBE v2的新型人工智能模型。该模型通过模拟人类大脑对多模态刺激的反应,为神经科学研究提供了全新工具,其核心优势在于无需依赖传统脑成像设备即可实现高精度预测。
传统神经科学研究长期面临两大难题:功能性磁共振成像(fMRI)设备成本高昂,且单次扫描需数十分钟;实验数据易受受试者头部微动、心跳等生理噪音干扰。TRIBE v2通过算法创新突破了这些限制,其预测结果甚至比真实脑扫描图更清晰,能够直接输出包含7万个"体素"的三维大脑活动图谱。
该模型采用独特的多模态融合架构。当接收视频、音频和文本输入时,系统会分别调用Video-JEPA-2、Wav2Vec-Bert-2.0和Llama 3.2三个预训练模型进行特征提取,再通过Transformer架构整合信息。这种设计使其在处理复杂刺激时具有显著优势——当同时输入多类型数据时,大脑颞叶、顶叶和枕叶交界处的预测准确率可提升50%。
实验数据显示,TRIBE v2在视觉认知任务中表现出色。面对面部、场景、身体部位等不同视觉刺激,模型能准确识别对应的大脑专门处理区域,其预测模式与实际测量数据高度吻合。在语言处理方面,该模型成功复现了言语与沉默、情感与疼痛等经典神经语言学现象,甚至能区分完整句子与词汇列表引发的大脑活动差异。
音频处理实验进一步验证了模型的跨模态能力。单独输入声音时,模型能精准定位听觉皮层活动;而当视听信息同步输入时,其预测精度显著优于单模态输入。这种特性使研究人员首次在计算机上复现了大量传统神经科学实验,且实验周期从数月缩短至数小时。
尽管性能卓越,TRIBE v2仍存在技术局限。由于依赖血流动力学数据,该模型无法捕捉毫秒级的神经电活动,且暂未纳入触觉和嗅觉维度。研究团队承认,当前版本对皮层下深层脑区的预测精度仍有提升空间,但随着训练数据量增加,模型准确性正呈现稳步上升趋势。
开源策略为这项技术注入新活力。meta已公开全部代码和预训练权重,全球研究者均可在此基础上开发定制化应用。目前已有实验室尝试将其用于脑科学实验设计优化,通过模拟不同刺激方案的大脑反应,大幅降低真实实验的试错成本。另有团队探索其在类脑计算架构开发中的潜力,试图借鉴大脑处理多模态信息的机制改进人工智能系统。
医疗领域的应用探索同样引人注目。由于TRIBE v2能通过简单问卷和行为数据推测大脑活动模式,未来或可用于辅助诊断阿尔茨海默病等神经退行性疾病。早期测试显示,该模型对轻度认知障碍患者的识别准确率达到82%,为低成本筛查提供了可能新途径。











