近日,一场聚焦人工智能大模型与高质量数据集的盛会在成都高新区拉开帷幕。此次活动由成都传媒产业集团旗下红星传媒携手中国人工智能产业发展联盟数据委员会共同主办,主题为第三届“大模型 大未来”人工智能大模型基准测试发展大会,同期还举办了“人工智能高质量数据集炼金工坊生态行”首站活动。
在活动现场,中国电信、海天瑞声、四川长虹等多家企业的代表齐聚一堂,围绕高质量数据集与数据标注建设展开深入交流,分享各自在该领域的实践成果与宝贵经验,为行业发展提供了丰富的思路和借鉴。
当天,中国信通院人工智能研究所、中国信通院成渝分院、文心大模型数据生态中心、四川长虹、天津大学、海天瑞声、中国电信成都分公司、砺英数智等8家单位共同宣布启动“四川数据标注和数据质量评估能力共建计划”。该计划旨在整合各方资源与优势,为大模型产业的高质量发展提供有力支撑。
大模型作为人工智能产业的核心驱动力,其卓越性能离不开高质量数据集的“滋养”。高质量数据集就如同驱动大模型运转的“燃料”与“基石”,其重要性不言而喻。“高质量数据集炼金工坊”生态计划依托中国人工智能产业发展联盟,由中国信息通信研究院人工智能研究所牵头,联合中国国家图书馆、高等教育出版社、中国科学院文献情报中心等多家单位共同发起。
成都是西部地区数字经济和人工智能产业的重要集聚地,在数据资源管理、应用场景培育以及产业生态建设等方面具备坚实的基础。此次“生态行”选择落地成都,既是对当地数据要素发展实践的一次集中展示,也希望通过跨区域、跨主体的交流合作,探索出可复制、可推广的数据赋能路径,为大模型产业筑牢数据根基。
中国人工智能产业发展联盟数据委员会主任、中国信通院人工智能研究所平台部副主任李荪在致辞中提到,人工智能高质量数据集的概念从国家提出至今已有一年多时间,在各地及各行业引发了强烈反响。成都作为国家七大数据标注基地之一,具备独特的优势。他期望通过此次生态活动,让更多隐藏在行业中的数据“宝藏”从“地下”走向“地面”,实现数据要素价值的快速释放,推动人工智能技术的广泛应用与落地。
四川省大数据发展研究会副会长、秘书长秦强子在致辞中表示,研究会汇聚了288家会员单位,联动超过3900家生态数据企业以及3万多名数据人才,初步构建了协同发展的良好生态。其核心业务围绕数字经济发展的关键环节展开,“三赛一行”已成为服务数据产业创新、挖掘培育人才、促进数据要素流通的特色品牌与重要抓手。
在主题分享环节,天津大学计算机科学与技术学院教授熊德意指出,大模型的构建离不开大量数据、算法和算力的协同作用,但数据量并不等同于数据的“智慧”程度。因此,建设高质量数据集是解决模型与应用瓶颈问题的关键。近期工信部提出的“模数共振”理念,正是引导人工智能模型与高质量数据集实现协同创新、深度融合。
中国信通院人工智能研究所专家樊威预测,2026年将有四类数据集迎来爆发式增长。一是世界模型的数据需求,如World Score中涵盖的3000个样本,涉及静动态及室内外等多种场景;二是具身智能的数据需求,包括真实世界机器人数据和仿真合成数据;三是智能体的数据需求,需要与测试环境深度耦合的交互数据;四是行业模型数据需求。未来,高质量数据集建设将通过数据工厂、体系建设、开发维护、合规可控等多方面举措协同推进。
中国电信成都分公司高级工程师罗莉表示,人工智能的发展离不开数据标注的支撑,中国电信在“采存管用、标训推测”等全链条环节具备智能处理能力,尤其在多数据、多模型、多算力的协同方面取得了显著提升。
文心大模型数据生态中心负责人黄能认为,当前人工智能技术革命正处于第四个阶段,即生成式人工智能浪潮。通用人工智能技术和多模态融合正处于蓬勃发展期,AI应用即将迎来快速增长期,并将催生众多新的商业模式。
四川长虹云计算与大数据研究中心副总经理唐博回顾了企业信息化发展历程,指出早期数据集成围绕业务场景展开,导致“数据孤岛”问题。尽管数据中台、数据湖等概念提出后解决了数据汇聚问题,但也带来了新挑战,如数据与应用场景匹配困难、汇聚与存储成本高昂等。他认为,人工智能高质量数据集应具备规模大、安全牢、观点正、效果好、应用广等特色。
北京海天瑞声科技股份有限公司首席专家王淳从生产过程角度指出,当前许多大模型存在反馈不够精准、及时、严谨等问题。客户需求也发生了变化,从单模态数据需求转向多模态需求,从通用场景需求转向行业场景需求。目前,工业、医疗、农业、林业、水利等多个领域的需求已列入清单,但相关知识储备尚显不足。
砺英数智(北京)数据技术有限公司总经理李图龙认为,传统数据中台虽解决了数据汇聚问题,但未解决数据应用问题。面向大模型应用,应以真实业务场景为牵引,通过规划设计、数据加工、模数共振训练、场景运维和数据运营等五个路径实现高质量数据集建设。











