ITBear旗下自媒体矩阵:

大模型时代数据告急,专家探讨高质量训练数据新来源

   时间:2025-07-29 20:03:07 来源:南方都市报编辑:快讯团队 IP:北京 发表评论无障碍通道
 

在2025年世界人工智能大会的一场分论坛上,专家们聚焦于大模型时代的数据治理与伦理建设,共同探讨人工智能的健康发展之路。会上,一个引人关注的观点被提出:到2026年左右,互联网数据或将难以满足大模型的训练需求,这一预测已成为业内共识。

数据标注,作为将原始数据如语音、图像、文本和视频转化为机器可读信息的关键步骤,近年来随着AI技术的进步而变得愈发重要。然而,尽管数据标注已成为大模型训练的基石,但行业面临的挑战也日益显著。缺乏统一标准、标注质量参差不齐、人力水平与技术需求不匹配等问题,正阻碍着数据标注产业的高质量发展。

上海库帕思科技有限公司首席运营官施佳樑在会上分享了行业观察。他指出,数据标注行业正在经历从人力密集型向知识密集型的转变。以往,该行业主要依赖四、五线城市的大专生进行简单的图像识别和语音转写任务。但随着大模型的引入,对高质量数据集的需求激增,标注工作开始涉及更复杂的学术难题和行业专业知识。

施佳樑进一步表示,如今,越来越多的高校学者和各行业资深专家参与到数据标注过程中,以构建具备强推理思维链的数据和行业语料库。这一转变不仅提升了标注行业的专业性,也引发了就业市场的巨大变革。未来,简单标注的数据标注师可能会逐渐被取代,标注行业将向更高阶的方向发展。

百度技术委员会理事长陈尚义也在会上谈到了高质量数据集的短缺问题。他指出,随着大模型的发展,高质量数据的短缺情况愈发严重,合成数据已成为应对这一短缺的新思路。然而,合成数据并非万能钥匙,它存在缺陷、误差和歧视等问题。这些问题源于合成数据是基于现有数据生成或受到现有数据影响的,如果算法本身存在偏见,那么合成数据可能会放大这种偏见。

合成数据还面临伦理、公平性和隐私泄露的风险。通过逆向工程,攻击者可能能够猜测出原始数据中包含的个人隐私信息。因此,在利用合成数据时,必须谨慎权衡其利弊。

其次,可以通过“众包众创”的方式,联合学术前沿的学校老师开展合作,共同构建高质量数据集。施佳樑观察到,很多学科在学术前沿方面可能走得比企业更远,企业则更多关注市场性问题。因此,通过校企合作,可以充分利用双方的资源优势,共同推动数据标注产业的高质量发展。

最后,对于具身智能等特定领域,由于此前缺乏相关数据积累,因此需要“从无到有”地建立数据采集场进行真机采集。这一过程虽然耗时耗力,但对于推动相关领域的发展至关重要。

去年3月在上海成立的全国首家人工智能语料公司“库帕思”,在今年的大会上宣布启用了全国首个语料运营公共服务统一门户,推动语料调用服务智能化。该公司的内部运行语料工具链平台,已完成400多个功能模块,并在医疗、教育、金融、城市治理等领域投入实战应用。施佳樑解释称,成立专门提供大模型语料服务的公司,是因为人工智能大模型领域的数据治理与传统数据治理存在较大差异。

传统数据治理主要关注数值、结构化数据,如人口数量、房价、人均收入和存款等。而大模型需要分析复杂的非结构化数据,如数学题的推理过程、期刊论文中的化学分子式等。这些数据涉及图像识别、自然语言处理等技术,处理的数据模块可能包含文本、图像、音频等多种形式。因此,数据应用场景的不同也导致了治理思路的差异。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version