在人工智能竞争格局中,数据要素正成为决定胜负的关键变量。上海市经济和信息化委员会相关负责人在近期举办的开发者论坛上明确指出,当前行业已从算法竞赛转向数据资源争夺,优质语料库的构建能力直接决定模型性能上限。这一判断在生物医药领域得到生动印证:某蛋白质研发机构通过采集马里亚纳海沟等极端环境微生物数据,结合人工智能算法优化,仅用数月便开发出耐碱性提升400%的蛋白质,成功应用于长效生长激素研发,使相关产品疗效获得突破性进展。
上海正通过系统性布局构建数据竞争优势。当地已形成覆盖具身智能、科学计算等垂直领域的多层次数据供给体系,建成全国首个贯通数据采集、清洗、标注、应用、评估全流程的公共服务平台。创新推出的"数据券"机制有效降低中小企业获取优质数据的门槛,目前平台已链接超过600万个物质实体数据和千万级化学反应数据,这些经过智能体提取对齐的科研数据,为AI驱动的科研范式转型提供关键支撑。
数据采集方式正在发生革命性变革。具身智能领域涌现出新型数据获取模式,某科技企业通过让研发人员穿戴轻量化设备在真实工作场景中采集第一视角数据,既避免了传统遥操作的高成本,又确保了数据的高质量与可扩展性。这种"人类本体采集法"已形成标准化流程,采集效率较传统方式提升3倍以上,为机器人训练提供了海量真实场景数据。
针对科研数据分散、格式不统一等痛点,上海人工智能实验室开发出智能文献解析系统。该系统可自动识别化学论文中的反应条件、物质属性等关键信息,经过标准化处理后形成结构化数据库。目前数据库已覆盖全球80%的化学期刊文献,为AI科学家提供了可直接调用的"数据原料库",显著缩短新药研发周期。
面向不同创新主体的数据需求,上海推出升级版普惠计划。新方案将服务范围扩展至科学智能领域和微型创新企业,计划到2027年底培育300个特色数据集,链接500个科研团队。在当天举行的签约仪式上,多家科研机构与科技企业达成数据共建协议,共同推进科研范式向"数据驱动+模型验证"的深度融合模式转型。同步启动的语料创新榜单评选,将挖掘更多具有产业转化价值的数据应用案例。










