在2025年国家网络安全宣传周人工智能安全治理分论坛上,备受瞩目的中文互联网基础语料3.0正式亮相。这一版本的数据容量高达120GB,为人工智能大模型训练及技术发展提供了强有力的数据支撑。
该语料的研发与发布,是在中央网信办的统筹指导下,由中国网络空间安全协会联合国家互联网应急中心等多家单位共同推进。项目汇聚了企业、高校及科研机构的智慧,依托人工智能安全治理专委会搭建的语料共建共享平台,实现了跨领域、跨行业的深度协作。
用户可通过中国网络空间安全协会官网,进入“中文互联网语料资源平台”完成注册认证后,即可下载所需语料。相关负责人指出,此次语料库的升级标志着中文数据资源建设迈入新阶段,未来将持续优化语料库构建,为人工智能技术创新与产业升级提供坚实保障。
此次发布的中文互联网基础语料3.0,不仅为人工智能领域注入了新鲜血液,也为相关研究提供了更为精准、全面的数据基础,助力行业向更高水平迈进。