文/海峰看科技
在AI技术重塑全球产业格局的当下,数据如同传统行业的煤油气,成为驱动数字经济发展的新“燃料”。
而数据标注能力,则成为AI落地应用的关键突破口。因为数据标注就像给海量杂乱的“数据仓库”里的每样东西贴上独一无二的小标签,让机器能快速找到、看懂数据,精准干活,大大提高效率。
在笔者近期参加的第八届数字中国建设峰会・智能云生态大会主论坛上,中国电信董事长柯瑞文与总经理刘桂清均提到数据标注能力,透露出中国电信在“数据”层面的战略、打法与成果。
中国电信董事长柯瑞文提出构建“算力、平台、数据、模型、应用”五位一体的智能云能力体系,将数据作为重要的一环,清晰勾勒出数字时代发展的战略蓝图。
谈及数据,柯瑞文强调:“中国电信将升级‘星海’数据智能中台,加快建设高质量数据集,赋能模型训推和应用。同时,中国电信还将继续深度参与成都、沈阳、保定等国家数据标注基地建设和国家级数据赛事,推动公共数据开放运营和价值释放。”
中国电信总经理刘桂清在论坛期间发布星海多模态数据标注平台,其三大核心技术成为全场焦点。他指出:“中国电信在数据领域通过强化数据汇聚和标注,为客户和合作伙伴在获取普惠算力以及开发和应用AI方面提供便利,推动人工智能产业创新发展。”
这不禁让人疑惑:在这个数据为王的时代,数据标注行业面临着怎样的挑战?星海多模态数据标注平台将如何应对挑战?让我们一同深入探寻其中的奥秘。
困局:数据标注赛道面临四大挑战
大模型时代,数据标注的质量与效率直接影响数据价值释放。当前,数据产业在数据标注领域面临多重挑战。
第一,数据标注标准不统一。不同领域、机构对数据标识的规则和标准差异巨大。医疗与金融领域对客户身份、交易数据的标识方式截然不同,在大模型跨领域数据融合训练时,难以直接对齐整合,极大降低数据利用效率。同时,智慧城市建设中,交通、环保、安防等部门数据因标识标准不一,共享流通困难,形成一个个“数字孤岛”。
第二,数据标注准确性不足。人工标注因标注人员专业水平、理解能力及主观因素影响,存在明显误差,如在图像标注中,对模糊内容标注结果差异大,干扰大模型训练精度。而自动化标注工具准确性与适应性有限,面对法律文书、学术论文等专业文本,难以理解专业术语与语义关系,导致标注错误频发。
第三,数据标注完整性缺失。在数据采集整理过程中,由于疏忽或技术限制,部分数据未被标识,这使得其中蕴含的重要信息无法被大模型利用,造成了资源浪费。即便已标识的数据,也可能存在信息不全面的问题,如产品数据仅标注基础属性,忽略生产批次、保质期等关键信息,削弱大模型分析预测能力。
第四,数据标注更新不及时。业务快速变化和技术迭代,使得数据含义与价值不断改变。电商平台商品分类和属性会随消费需求、市场趋势调整,若数据标识未同步更新,大模型分析销售数据时易得出错误结论。此外,随着多模态大模型发展,对多模态数据标识与关联要求更高,旧有标识体系难以满足新需求。
第五,数据标注效率低。伴随人工智能应用爆发,数据标注需求呈井喷式增长。自动驾驶、智能安防等领域动辄百万级数据亟待处理,但人工标注即便满负荷工作,仍难以跟上需求节奏,项目交付周期大幅延长,标注效率已成为制约产业发展的关键瓶颈。
破局:三大技术打造数据标注利器
为了应对以上挑战,数据产业各玩家均在积极打造破局利器,但结果却不尽如人意。此时,中国电信面对人工智能时代,重磅推出星海·多模态数据智能标注平台。
有人问,该平台实力到底如何?中国电信数据发展中心总经理林睿在发布会上直言:“星海·多模态数据智能标注平台拥有超50个自动化标注的技术和工具。”
接下来,我们将从星海·多模态数据智能标注平台三大核心技术,看一看该平台是否拥有破解以上挑战的实力。
AI辅助自动化标注技术。该技术化身“数据智能助手”,引入AI辅助人工标注,就像给标注员配备了超级大脑。据行业数据,传统纯人工标注效率低、成本高,而星海平台的自动化预标注准确率达92% ,效率相比纯人工提升17倍,极大降低人力成本,加速数据标注进程。
其次,4D全模态标注技术。面对自动驾驶场景,4D全模态标注技术好似为标注工作打开“时空之眼”。在传统3D空间信息基础上融入时间维度,形成4D标注,犹如给自动驾驶系统配备了“时空记录仪”。行业普遍面临自动驾驶动态标注精度不足的问题,而星海平台这一技术,能让自动驾驶动态连续标注精度提升45%,助力自动驾驶系统更精准感知路况变化。
低空空间感知标注技术。针对低空经济场景,通过空间感知标注使得关键目标跟踪的连续性达到98%,空间标注精度提升59%,比如在数字化塔台应用中,通过对塔台、雷达、光电、卫星、气象等数据的融合,以全链路数据标注技术助力塔台的本场智能化管理、空域监测、飞行调度等,实现低空空域“可计算、可规划、可运营”,综合服务效率提升30%。
笔者认为,星海·多模态数据智能标注平台的三大能力,如同三把利刃,精准破解数据标注难题。
布局:打造星海大数据能力体系
当笔者走进中国电信智能云生态成果展台,仿佛踏入一座数据智能的“未来中枢”。在这里,笔者看到中国电信精心打造的星海大数据能力体系,如同三驾齐驱的马车,重新定义数据产业格局。
其一,星海数据智能中台堪称数据界的“智慧中枢神经”。星海数据智能中台打破多源异构数据间的“数字孤岛”,将多模态数据采集、治理、分析与服务等能力深度集成,如同为企业装上强大的数据“处理器”。通过AI算法与可视化工具,让数据资产实现智能化运营。据行业报告,智慧城市、工业互联网等领域因数据壁垒导致的决策滞后、资源浪费问题普遍存在,而星海数据智能中台凭借 “高效赋能” 特性,助力企业精准决策、降本增效,推动数据资源向核心生产力加速转化。
其二,星海可信数据空间则是数据共享交易的“安全堡垒”。星海可信数据空间基于区块链与隐私计算技术,构建起 “数据可用不可见,用途可控可追溯” 的严密防护体系。在金融、医疗等高敏感领域,数据安全与合法流通一直是行业痛点,星海可信数据空间通过权属认证、合规审计等机制,成为跨域数据流通的信任基石,为多方协作构筑起坚实的可信生态。
其三,星海数据标注作为AI训练的“数字粮仓”。星海数据智能标注平台以自动化标注工具和专业化众包平台为依托,全方位覆盖图像、语音、文本等多模态数据处理。
在笔者看来,三大核心产品相互协同,共同构建起星海大数据能力体系,展现出中国电信在数据领域领航者的强大实力与深远布局。
基于深厚的数据能力,中国电信在数据领域已成为不可小觑的力量。以数据标注赛道为例,中国电信已和四川成都、辽宁沈阳、河北保定三个数据局签订关于数据标注基地建设的战略合作协议。
此外,中国电信借助自动化标注技术,打造了50万小时的方言高质量数据集,并在此基础上成功打造多方言大语言模型—星辰超多方言语音识别大模型。该模型赋予中国电信强大的语言处理能力,可精准识别粤语、上海话、四川话、温州话等超40种方言。
同时,中国电信借助空间感知标注,参与了在深圳市开发了国内首个低空场景的数字化塔台。
笔者观察:从通信巨头蜕变为数据赋能者
在大模型重塑产业格局的当下,数据已成为全球竞争的战略制高点。中国电信凭借星海大数据能力体系,正从通信基础设施服务商向数据价值全链条赋能者转型。
从技术突破看,星海平台以AI辅助标注提升效率、4D全模态标注突破场景限制、可信空间保障数据流通安全,每一项创新都精准切中行业发展瓶颈。
从生态构建看,与多地数据局合作建设标注基地、开发方言数据集及低空数字化塔台等实践,彰显其推动数据要素跨领域流通、加速产业智能化转型的信心。
笔者以为,从通信巨头到数据赋能者,中国电信在数据领域的前行之路,不仅是技术的突破,更是对“数据要素激活数字经济”这一时代命题的生动回应。
中国电信通过星海大数据能力体系构建,不仅助力企业解决数据标注行业现实痛点,更以技术创新与生态共建,助力落实国家《关于构建数据基础制度更好发挥数据要素作用的意见》提出的“健全数据要素市场体系,促进数据要素自主有序流动”目标。
不难预见,当越来越多企业在数据孤岛中徘徊,中国电信以技术创新为舟、生态共建为桨,开辟出一条数据价值释放的新航道,推动数据要素价值释放进入新阶段,成为数字中国建设先行者。