OpenAI近日正式进军制药领域,推出首款专为生命科学设计的模型系列GPT-Rosalind。该模型以DNA双螺旋结构发现者罗莎琳德·富兰克林命名,在RNA序列功能预测任务中表现优异,超越95%的人类专家水平。这一突破标志着人工智能在药物研发关键环节的应用迈入新阶段。
在与基因治疗企业Dyno Therapeutics的合作测试中,GPT-Rosalind展现出强大的专业能力。针对未公开的RNA序列数据集,模型在功能预测任务中提交10次结果取最优值,其准确率超过95%的生物信息学领域专家;在序列生成任务中,表现也优于84%的同行。测试采用完全独立的数据集,确保评估结果不受训练数据污染影响。
该模型的核心优势在于整合科研工作流的能力。不同于传统通用大模型,GPT-Rosalind专门优化了五个科研方向:化学反应机理推导、蛋白质结构突变分析、基因组数据解读、实验方案设计以及海量文献综合分析。配套推出的Life Sciences Research插件已开源,可连接50多个多组学数据库和科研工具,涵盖从遗传学到临床证据的多个领域。
在药物研发场景中,科研人员可通过单一界面完成多项工作:查询PubMed文献、运行BLAST序列比对、调用AlphaFold预测蛋白结构、检索临床试验数据等。这种集成化设计显著提升了工作效率,使研究人员能够将更多精力投入核心思考环节。首批合作方包括安进、莫德纳等制药巨头,以及麦肯锡等战略咨询公司。
基准测试数据显示,GPT-Rosalind在专业任务中表现突出。在BixBench生物信息学基准测试中,该模型在已公开成绩的系统中位居前列;在LABBench2的11项任务中,有6项优于通用大模型GPT-5.4,其中分子克隆方案设计任务的提升尤为显著。这些成绩验证了垂直领域模型在专业应用中的优势。
与DeepMind的AlphaFold相比,GPT-Rosalind定位截然不同。AlphaFold作为计算引擎,专注于解决蛋白质折叠问题,其数据库已包含超2亿个结构预测;而GPT-Rosalind更像科研助手,侧重于工作流整合与决策支持。两者形成互补关系:前者提供基础数据支撑,后者优化研究流程设计。
当前模型仍存在局限性。在RNA序列生成任务中,其表现略逊于功能预测任务,反映出AI在创造设计方面的能力边界。所有测试结果均来自实验室环境,与实际药物研发周期缩短之间尚存差距。该模型已开放学术界测试申请,科研人员可提交研究计划获取使用权限。
技术文档显示,GPT-Rosalind的训练数据涵盖生物医学文献、实验报告和专利数据库,采用强化学习与人类反馈优化机制。插件系统支持自定义扩展,用户可根据研究需求接入特定数据库或分析工具。这种开放架构为模型在细分领域的应用提供了可能。
行业观察人士指出,生命科学领域正形成新的技术范式:通用大模型提供基础能力,垂直模型解决专业问题,工作流工具实现系统集成。GPT-Rosalind的推出,标志着AI制药竞争从单一技术突破转向全流程优化,这可能重塑未来药物研发的产业格局。











