212-869-3323

上海市浦东新区世纪大道100号

OpenAI 推出 GeneBench-Pro 基准测试,用于评估 AI 模型生物学计算能力 - 世界杯官网

首页 / 世界杯资讯

作者:赛事分析师

平台资讯

评论: 22


2026世界杯官方指定直播平台,为您呈现最前沿的赛事数据与战术分析。

OpenAI 发布了名为 GeneBench-Pro 的新基准测试,旨在评估人工智能模型在生物学计算方面的能力。与侧重于模型记忆能力或固定流程执行能力的传统测试不同,GeneBench-Pro 更加注重模型在实际科研场景中的应用价值。它要求模型在面对“模糊、不完整,甚至包含干扰信息的数据环境”时,能够进行判断和分析以得出结论。

GeneBench-Pro 包含一系列涵盖基因组学、定量生物学和转化医学等领域的任务。该基准测试共设计了 129 道题目,划分为 10 个主要领域和 21 个子领域。这些领域涉及统计遗传学、群体遗传学、功能基因组学、蛋白质组学等多个方面。每道题目都会向模型提供一份贴近真实科研环境的数据集,辅以简要的实验背景说明,并提出一个与后续决策相关的目标问题。模型需要自主完成数据探索、选择分析方法,并在过程中不断调整策略,最终给出答案。

为规避传统长流程基准测试中常见的评分偏差,OpenAI 在设计 GeneBench-Pro 时采用了合成数据(Synthetic Data)作为核心。这是因为使用真实的历史数据出题时,可能存在多条可行的分析路径,导致模型即使采用错误方法也可能偶然获得正确答案。通过利用合成数据,OpenAI 可以完全掌控底层因果关系和数据生成过程,从而更精确地评估模型是否真正理解了问题,而非仅仅“取巧”得分。

目前,OpenAI 已在 Hugging Face 上开源了 10 道代表性的 GeneBench-Pro 示例题目,并提供了一个可供外部研究人员进行交互体验的界面。未来,OpenAI 计划开放其中 50 道题目给 Artificial Analysis 进行独立的第三方评测,以检验不同模型在这一基准测试上的实际表现。

Top
世界杯直播科技有限公司为全球球迷提供最稳定、最全面、最精彩的世界杯赛事直播与资讯体验。电话:+86 152 2992 8080邮箱:[email protected]微信:2026fifazhiz_453营业时间:周一至周五 8:20–18:30广州市天河区天河北路517号