据央视新闻报道,截至今年六月末,我国高质量数据集的建设取得了显著进展,总量已超过3.5万个,这一数字相当于中国国家图书馆数字资源总量的约140倍。目前,在中文数据处理方面,国内大多数模型训练所使用的中文数据占比已突破60%,更有部分先进模型高达80%。自“十四五”规划实施以来,中国在人工智能领域的专利申请数量占据了全球总量的六成。
据央视新闻报道,截至今年六月末,我国高质量数据集的建设取得了显著进展,总量已超过3.5万个,这一数字相当于中国国家图书馆数字资源总量的约140倍。目前,在中文数据处理方面,国内大多数模型训练所使用的中文数据占比已突破60%,更有部分先进模型高达80%。自“十四五”规划实施以来,中国在人工智能领域的专利申请数量占据了全球总量的六成。