ITBear旗下自媒体矩阵:

DeepSeek Engram技术启发下 国内团队打造基因组模型「外挂字典」新突破

   时间:2026-02-01 12:08:15 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在人工智能与生命科学交叉领域,一项名为Gengram的创新技术引发广泛关注。这项由杭州科研团队开发的基因组模型插件,通过引入"外挂记忆库"机制,为基因数据分析开辟了全新路径。其核心突破在于将传统模型中需要反复计算的基因片段识别过程,转化为高效的哈希表查询操作。

传统基因组基础模型普遍采用单碱基分词策略,将DNA序列拆解为单个碱基进行处理。这种模式虽符合生物学基本逻辑,却面临双重困境:在识别启动子等关键功能片段时,模型需通过多层注意力机制从零构建序列模式;面对长达30亿碱基的人类基因组,这种逐碱基分析方式极易陷入局部细节而忽略整体结构。研究团队形象地比喻:传统模型分析基因序列如同逐字解读"魑魅魉魍",而人类认知能直接识别整个成语。

Gengram的技术架构包含三大创新模块。首先构建了可微分的哈希表,存储长度1-6的DNA片段(k-mer)对应的语义向量,这些片段涵盖已知的转录因子结合位点等生物学功能单元。其次引入动态门控机制,使模型能根据上下文自主决定是否查询记忆库——在关键功能区域激活检索,在非编码区域则依赖推理。最后通过局部聚合窗口设计,使模型自发捕捉到DNA双螺旋的物理特性。

性能测试数据显示显著优势:在8k和32k上下文版本中,集成Gengram的模型在剪接位点预测任务中AUC提升16.1%,表观遗传预测任务AUC提升22.6%。更引人注目的是其数据效率——仅需极小规模训练数据,就能在核心任务上媲美数据量数十倍的公开模型。该技术展现出强大的架构适应性,在Dense和MoE等不同模型架构中均能降低训练损失并加速收敛,特别在MoE架构中有效解决了专家负载失衡问题。

实验过程中发现令人惊喜的生物学洞察:当测试不同窗口大小时,模型在21bp设置下性能达到峰值。这一数值恰好对应DNA双螺旋两个完整旋转周期(每10.5碱基旋转一圈)的物理特性。这意味着模型在未接受任何结构生物学训练的情况下,通过计算自行发现了DNA序列的空间相位规律。研究团队强调,这种对物理本质的理解源于模型对局部生化环境的敏感性,而非简单的统计拟合。

该技术的开发团队由之江实验室与杭州华大生命科学研究院联合组成,这种"AI+生命科学"的交叉背景构成独特优势。其基于的Genos基因组基础模型在多项指标上已超越当前业界领先的Evo-2模型。研究团队已公开代码库和模型参数,提供完整的工具链支持,包括可微分哈希表构建、动态门控训练和局部窗口优化等模块。

这项突破为科学基础模型开发提供了新范式。传统方法通过扩大参数规模和训练数据量来提升性能,而Gengram将领域知识转化为结构化外部记忆库,使核心模型能专注于高级推理。其设计理念包含三个关键方向:将确凿的生物学知识转化为可查询的外部资源;将物理规律显式编码为模型架构约束;通过可解释的查询机制使推理过程透明化。这种模式为解决基因调控元件预测、表观遗传分析等长序列问题提供了新思路。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version