近日,谷歌DeepMind在其官方博客上发布了一项名为AlphaGenome的新模型,该模型在预测人类DNA序列中单个变异或突变的影响方面展现出了前所未有的全面性和准确性。据悉,DeepMind计划通过API预览版的形式,将这一创新工具提供给科研界。
AlphaGenome是一种全新的人工智能工具,专门设计用于处理长度可达100万字母的DNA序列,并能预测数千个分子属性,以揭示基因调控活动的复杂性。该模型的工作原理是通过对比突变序列与未突变序列的预测结果,对遗传变异或突变的效果进行量化评分。
为了训练AlphaGenome,DeepMind利用了ENCODE、GTEx、4D Nucleome和FANTOM5等大型公共联盟提供的数据。这些数据集涵盖了数百种人类和小鼠细胞类型及组织的基因调控关键模式,为模型的训练提供了坚实的基础。
在模型架构上,AlphaGenome结合了多种技术。它使用卷积层来识别基因组序列中的短模式,利用变压器传递序列中所有位置的信息,并通过一系列最终层将这些检测到的模式转化为对不同调控模式的预测。
AlphaGenome的几大亮点包括:能够处理超长序列并做出精细到单个字母分辨率的预测;具备全面的多种模式预测能力;高效地对变异进行评分;以及对剪接接点进行建模,这在同类模型中尚属首次。
AlphaGenome的预测能力在多个科研领域都具有潜在的应用价值,包括疾病理解、合成生物学和基础研究等。然而,尽管取得了显著进步,该模型仍面临一些挑战,例如如何准确捕捉远距离调控元素的影响等。