在2025年国家网络安全宣传周人工智能安全治理分论坛上,中文互联网基础语料3.0版本正式面向社会发布。此次发布活动在昆明举行,标志着我国在人工智能数据资源建设领域迈出了重要一步。
该版本语料由中国网络空间安全协会牵头,联合国家互联网应急中心等多家单位共同完成。在前期1.0和2.0版本的基础上,项目组充分发挥企业、高校和科研机构的协同优势,通过语料共建共享机制,系统整合了新一批高质量可信数据。经过严格的信源筛选、内容过滤和数据去重等处理流程,最终形成了总容量达120GB的语料库。
新版本显著扩大了优质中文网站的信源覆盖范围,并强化了违法不良信息的过滤机制。这些改进使得语料库能够为人工智能大模型训练提供更加可靠的数据支持。研究人员指出,高质量语料的持续供给对推动人工智能技术创新和产业发展具有关键作用。
用户可通过中国网络空间安全协会官方网站获取该语料资源。具体操作流程为:访问网站后点击"中文互联网语料资源平台"入口,完成注册和认证程序后即可下载相关数据。这一开放共享机制将有效促进人工智能领域的学术研究和产业应用。
协会负责人表示,中文互联网基础语料3.0的发布是各方协同努力的成果。未来将继续联合国家互联网应急中心等单位,协同各行业力量,不断完善语料库建设,为人工智能技术发展提供坚实的数据基础。