美国俄勒冈大学科研团队在生物进化研究领域取得重大进展,开发出全球首个专为群体遗传学设计的语言模型。该模型借鉴大语言模型技术架构,通过分析DNA序列中的碱基排列规律,实现了对生物进化路径的快速解析。研究论文已发表于权威学术期刊《美国国家科学院院刊》。
与传统方法依赖概率统计不同,新模型采用改进版GPT-2架构,但训练数据全部来自多物种的进化模拟数据集。研究团队将细菌、啮齿类、蚊媒及灵长类等生物的基因序列转化为"遗传语言",通过机器学习识别碱基变异模式。这种变异模式类似于文本中的错别字,能够作为追踪生物血缘关系的分子标记。
在处理大规模基因组数据时,该模型展现出显著优势。传统统计方法解析单个染色体可能需要数日时间,且难以处理不完整的基因序列。新模型通过前置训练阶段完成复杂计算,实际应用时仅需数分钟即可完成相同任务,效率提升达数十倍。测试数据显示,其在确定基因共同祖先等核心指标上,已达到现有最优统计方法的精度水平。
这项技术为公共卫生领域提供了全新工具。研究团队正将其应用于疟疾防控实践,通过分析蚊虫种群的抗药性基因演化,揭示杀虫剂选择压力下的基因扩散规律。模型对碎片化基因数据的兼容性,有效解决了野外采样中常见的序列不完整问题。掌握抗药性基因的出现时间和传播路径,有助于制定更具针对性的防控策略。
科研人员形象地描述了技术突破:过去分析基因变化如同逐字阅读,现在则能快速识别关键变异。该模型不仅能发现DNA序列中的"错误",还能通过这些变异反推生物的进化关系,甚至确定物种分化时间。在蚊虫抗药性研究中,系统可在短时间内重建抗药基因的传播网络,为调整杀虫剂使用方案提供科学依据。
目前研究团队正推进模型功能升级,计划从双谱系分析扩展至多谱系全基因树重建。虽然传统方法已具备部分功能,但机器学习在处理海量数据时具有独特优势。通过持续优化算法,模型将能够捕捉更复杂的进化信号,为遗传学研究开辟新的技术路径。











