滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

OpenAI发布GeneBench-Pro基准测试：聚焦AI真实科研场景下的生物学计算评估

时间：2026-07-02 05:38:14 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

OpenAI近日正式发布了一项专为评估人工智能模型生物学研究能力设计的基准测试工具——GeneBench-Pro。该测试突破传统评估框架，重点考察模型在复杂科研场景中的自主决策能力，包括对非结构化数据的解析、分析路径的动态选择以及结论对实际问题的支撑性。

区别于常规基准测试仅关注知识记忆或固定流程执行的特点，GeneBench-Pro构建了高度模拟真实科研环境的数据场景。测试要求模型面对存在缺失值、噪声干扰甚至矛盾信息的实验数据时，能够自主完成数据清洗、方法适配和策略优化，最终形成可指导后续研究的结论。这种设计更贴近科研人员实际工作状态，强调模型在不确定性条件下的推理能力。

测试体系覆盖基因组学、蛋白质组学、转化医学等10个核心领域，包含21个细分研究方向的129道任务。每道题目均提供接近真实研究场景的数据集，配套简明实验背景说明和明确的研究目标。模型需要自主完成从数据探索到方法验证的全流程，过程中需根据数据特征动态调整分析策略，最终输出符合科研规范的结果。

为解决传统评估方式存在的评分偏差问题，研发团队采用合成数据技术构建测试核心。通过精确控制数据生成机制和底层因果关系，确保每道题目存在唯一正确解法。这种设计有效避免了使用真实历史数据时，因多路径分析导致的评估失真问题，使测试结果能更准确反映模型的真实理解能力。

目前该项目已在Hugging Face平台开放10道典型示例题，配备交互式操作界面供研究人员体验。后续将向第三方评估机构Artificial Analysis开放50道测试题，通过独立评审验证不同AI模型在该基准下的性能表现。这种开放协作模式旨在建立更透明的评估标准，推动AI生物学研究能力的标准化发展。

更多>同类资讯

2026WAIC“AI创新者思享汇”：从共生到协同，共绘人机关系新蓝图

07-02

孙周兴复旦演讲：探寻AI无法触及之地，不可数字化哥德尔信息成关键

07-02

国产算力新突破！海光信息携手同济大学，AI4E千卡集群助力工程智能升级

【环球网科技报道记者李文瑶】6月25日，上海同济大学，海光信息与同济大学正式签署战略合作协议，挂牌成立全国首个“高校海光算力优化中心”，共建国内首个国产千卡工科智算集群。此次千卡集群的落地，不仅填补了…

07-02

学而思2026旗舰点映会：AI家教新方案亮相，T6系列学习机引领教育新潮流

07-02

优必选CEO预测：未来机器人将主导工作，20余款超仿生人形机器人亮相

07-02

米哈游于上海新设舒俱科技公司注册资本千万聚焦多领域开发

07-02

松下押注AI领域！官宣5000亿日元投资，目标AI基建销售额达1.4万亿日元

07-02

Figure 03进驻宝马工厂：以创新技术解锁物流新场景，赋能汽车生产新未来

07-02

优必选发布全球首款全尺寸超仿生人形机器人U1系列盘中股价涨超17%

上证报中国证券网讯（记者何治民杨子晏）6月30日午后，优必选震荡拉升，截至14时22分，该股涨17.51%，报112.4港元/股。消息面上，6月30日下午，优必选发布全球首款全尺寸超仿生人形机器人U1系…

07-02

英伟达中国大规模招揽机器人人才，具身智能领域高薪“抢人”进行时

具身智能团队开放岗位最多，共6个职位；仿真方向开放4个岗位；部署方向同样设4个岗位；解决方案架构方向设2个岗位，负责向各行业输出英伟达技术方案。目标是打造机器人领域的安卓生态，覆盖工业机械臂、四足与人形机器…

07-02

超仿生人形机器人：99%的完美背后，那1%的人性为何无法复制？

跟进厂干活的工业级人形机器人不一样，它走的是情感陪伴赛道：但那时候，它就是个完美恋人了吗？机器人越像人，越暴露它永远缺的那1%。但它永远无法拥有鲜活的人性。现在的工业制造、AI 算法、精密加工，已经强大…

07-02

99万“天价”陪伴机器人引热议，优必选冲刺万亿家庭市场胜算几何？

最近，2个“万亿”引起市场的关注，一个是寒武纪市值突破万亿，另一个是“人形机器人第一股”优必选发布的陪伴机器人新品，想要冲刺万亿超仿生机器人市场。面向未来的万亿市场，优世界U1进行了一次探索，1.3万的订单…

07-02

优必选周剑谈人形机器人：家庭场景潜力大，当下聚焦情感陪伴正当时

如果一定要分的话，我觉得50%的精力在商业和工业，还有50%是在家庭，我们三条腿都在做。这也让我看到一个机会，中国无论在AI、物理世界构建、数据场景，还是本体制造，我们有些公司量产了几千台上万台，而海外公司…

07-02

博雷顿智驾大模型亮相新疆 “算电双驱”引领矿山智能化新变革

业内人士表示，智驾大模型的发布，意味着博雷顿正在推动矿山无人驾驶从规则驱动走向模型驱动，从单车智能走向车队协同，从人工经验走向数据决策，从局部优化走向全局优化。业内人士认为，这场发布会标志着博雷顿正在把多…

07-02

机器人“求学”进阶路：从训练到“高考”，具身智能开启新篇章

之前各家机器人公司在各自摸索怎么造，现在工信部定下的这套标准，相当于给全行业发了一张统一的“课程表”和“考试大纲”。今后会有更多的机器人需要经历“高考”，而这场考试的意义，是为了在不久的将来，让通过正规考试的…

07-02

点击查看更多 +

全站最新

2026年三款AI智能降噪助听器深度测评：精准匹配需求，开启清晰聆听新体验

全新一代天工08预售开启！17.98万起，家庭高品质纯电生活轻松享

鑫源向上V6：小众品牌打造刚需神车，能否在巨头夹击中突围？

新款红旗天工08 670 Max预售开启限时优惠+多项权益智能豪华新选择

学而思2026旗舰点映会：AI家教新方案亮相，T6系列学习机引领教育新潮流

MG07设计风波背后：品牌话语权之困与车圈舆论生态的双重审视

热门内容

本栏最新

学而思2026旗舰点映会：AI家教新方案亮相，T6系列学习机引领教育新潮流

邬贺铨：智能体融入工业互联网，发展脉络、机遇挑战与应对全解析

岚图泰山X8纯电版7月交付，配置拉满，30万级SUV市场激战将启

iCAR V27首轮大规模OTA升级来袭智能驾驶等140余项功能焕新升级

iCAR V27首轮大规模OTA升级来袭智能驾驶安全座舱全面焕新升级

缤果PRO上市月余车主反馈：好看好开又实用，城市代步新选择

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.