上海AI实验室主导的突破性研究近日引发科学界广泛关注,研究团队成功构建了全球首个万亿参数规模的科学多模态基础模型Intern-S1-Pro。该模型不仅在通用能力上达到业界顶尖水平,更在化学、材料科学、生命科学和地球科学等关键领域展现出前所未有的深度理解能力,为人工智能在专业领域的应用开辟了新路径。
传统人工智能系统往往专注于单一领域,而科学研究需要跨学科的综合能力。研究团队发现,处理多个科学领域的AI模型需要比单一领域模型大90倍的参数量。这一发现促使他们将模型规模扩展至万亿参数级别,使Intern-S1-Pro成为首个达到此规模的科学多模态基础模型。该系统能够理解和生成自然语言文本,处理科学图像,解析时间序列数据,甚至具备自主规划和执行复杂科学工作流程的能力。
构建如此庞大的模型面临诸多技术挑战。研究团队创新性地采用"分组路由"机制,将专家均匀分配到不同组别,确保每个组都有顶尖专家参与任务处理。这种方法类似于餐厅合理分配厨师资源,既保证了服务质量,又避免了计算资源的浪费。实验表明,这种设计使模型性能略微超越扩展前基准,而传统方法则会导致性能下降超过20个百分点。
为解决稀疏模型训练中未激活专家的学习问题,团队引入了"直通估计器"技术。这项创新使所有专家都能在训练过程中获得反馈信号,确保系统持续改进。模型还采用了原生分辨率图像处理方式,能够根据输入图像的实际分辨率进行调整,保留高分辨率图像中的精细信息,这对科学应用尤为重要。
在位置编码技术方面,Intern-S1-Pro引入了傅里叶位置编码(FoPE),使AI能够理解物理世界的连续性。传统位置编码如同给每个位置分配固定门牌号,而FoPE则像为每个位置分配完整的频谱"指纹"。这项创新显著提高了模型处理不同长度序列的能力,就像学会一首歌的旋律后,即使延长演奏时间也不会走调。
针对科学研究中常见的时间序列数据,团队开发了专门的处理模块。该模块采用自适应子采样策略,根据信号特征动态确定分块策略,既保证重要信息不被遗漏,又将数据量控制在可处理范围内。这一模块能够处理从100个到100万个数据点的序列,覆盖了绝大多数科学应用场景,并在天文学、神经科学和地球科学等领域展现出强大能力。
高质量训练数据的获取是另一个重大挑战。研究团队从科学论文PDF文档中挖掘知识宝藏,开发了一套完整的处理流水线。该系统能够精确识别文档中的图片、表格、公式和正文等元素,去除重复内容,并为科学图像生成详细的专业描述。最终,团队处理了涵盖多个科学领域的大规模语料库,产生了约270亿token的高质量科学图文配对数据。
将科学数据与通用数据融合训练面临"分布偏移"和"负迁移"等问题。研究团队通过结构化科学数据转换、科学数据多样化和系统提示隔离三大策略解决了这一挑战。这些方法确保模型能够同时处理严谨的科学问题和灵活的通用任务,就像一个人既能成为优秀的科学家,又能是出色的文学家。
在万亿参数规模下进行强化学习训练需要解决复杂的内存管理和计算分配问题。团队采用FP8量化技术,并实施了综合性的稳定化框架,包括算子级别对比、推理路由重放和定制混合精度策略等。这些创新使FP8混合精度强化学习在实践中达到与BF16训练相当的效果,为大规模模型训练开辟了可行路径。
性能评估显示,Intern-S1-Pro在多个科学基准测试中表现优异。在SciReasoner科学推理基准上获得55.5分,远超其他模型;在化学领域的SmolInstruct基准上取得74.8分的显著成绩;在材料科学的MatBench基准上获得72.8分。同时,该模型在通用任务上也保持强劲竞争力,在数学推理等高难度任务上表现出色。
有趣的是,实验结果表明更大规模的通用模型在专业任务上反而表现更优。与专门的生物学模型对比显示,Intern-S1-Pro在绝大多数生物学任务上显著超越专业模型,平均得分高出13.21分。这种现象表明,强大的通用推理能力能够帮助模型更好地理解和利用专业数据,为AI模型设计提供了新思路。
Intern-S1-Pro的技术创新具有广泛影响。分组路由机制为大规模模型训练提供了新的负载均衡解决方案;直通估计器技术解决了稀疏模型训练的根本性问题;傅里叶位置编码改进了位置编码方法;时间序列处理模块的自适应策略具有广泛适用性。这些创新不仅提升了当前模型性能,也为未来AI技术发展提供了重要参考。










