谷歌DeepMind与麻省理工学院、哈佛大学的研究团队近日在科学计算领域取得重大突破,联合开发的AI系统能够自动生成"专家级科研实证软件"。这项发表在arXiv平台的研究成果,通过将大语言模型(LLM)与树搜索算法深度融合,实现了科研编程效率的革命性提升。实验数据显示,该系统可在数小时至数天内完成人类专家需要数月才能完成的复杂编程任务,并在多个学科领域展现出超越顶尖人类方案的表现。
研究团队针对现代科研中普遍存在的"可评分任务"——即需要通过实证软件解决的科学问题展开攻关。这类任务广泛存在于化学建模、气候模拟、社会系统预测等领域,传统开发方式往往需要研究者投入数年时间,且高度依赖个人经验。新开发的AI系统通过"生成-评估-迭代"的闭环机制,能够自动生成符合特定评估指标的优化代码。系统首先利用LLM生成初始Python代码方案,随后在沙盒环境中运行并获取质量评分,最后通过树搜索算法在解空间中持续优化。
核心创新在于PUCT树搜索算法的引入,该算法受AlphaZero启发,通过平衡"开发"与"探索"策略实现高效搜索。研究特别强调了外部知识整合机制,系统能够主动检索科学文献、专业教材及搜索引擎(包括Gemini Deep Research等工具)中的研究思想,并将其转化为代码生成的指导建议。在2023年Kaggle竞赛的16场实战测试中,树搜索方法的表现显著优于单次及千次LLM调用的结果,通过持续发现新策略实现了分数"跳跃式"提升。
在基因组学领域的单细胞RNA测序(scRNA-seq)批次效应消除任务中,该系统展现了卓越的创新能力。面对高维稀疏数据的挑战,系统不仅成功去除混杂因素,还完整保留了生物学信号。更引人注目的是,其生成的87种全新分析方法中有40种超越了人类专家开发的最佳模型。其中BBKNN (TS)方法通过重组ComBat与BBKNN现有技术,实现了14%的性能提升,这种"理念重组"的突破性成果验证了AI在科研创新中的独特价值。
研究团队在生物信息学、流行病学、地理空间分析等六个学科领域进行了基准测试,结果显示AI系统在多数任务中达到或超过了人类最新方法。这种跨学科通用能力的实现,标志着科研自动化进入全新阶段。实验还证实,当系统接收针对具体问题的专家建议时(如Kaggle竞赛经验),其表现会得到显著提升,这为未来人机协作的科研模式提供了重要参考。