在2025年的炎炎夏日,上海迎来了全球瞩目的WAIC盛会。活动期间,中国电信的展位上,一项名为“方言语音高质量数据集”的展示成为了焦点。这一创新成果不仅吸引了众多参观者的目光,更揭示了人工智能(AI)背后一个鲜为人知却至关重要的支撑产业——数据标注。
随着智能手机语音识别技术的日益精准、自动驾驶汽车在复杂路况中的游刃有余,以及电商平台个性化推送的精准无误,人们或许未曾意识到,这些看似平常的应用背后,都离不开高质量数据的强力支撑。然而,当前AI产业正面临着一场前所未有的数据饥渴危机。据斯坦福AI指数报告,全球AI数据需求正以惊人的指数级速度增长,而大模型的参数规模同样在迅速膨胀。若缺乏高质量数据的持续供给,再先进的算法也将难以为继。
在中国电信的展台上,参观者亲眼见证了方言语音数据集的力量。这一数据集依托中国电信发布的星海·多模态数据标注平台,通过AI辅助自动化标注技术,实现了超过92%的准确率,效率更是人工标注的17倍。基于这一技术,中国电信成功构建了50万小时的高质量方言数据集,为方言数据模型的打造奠定了坚实基础,使得智能热线能够听懂来自不同区域、不同民族的群众语言。
中国电信与成都市国家数据标注基地牧山园区的合作更是将这一技术推向了新的高度。他们利用已采集的19个地市方言语音大数据,成功构建了四川方言高质量数据集,并基于此训练出四川方言大模型。这一模型在政务服务热线、医疗问诊、文化导引、助农直播等多个场景中得到了广泛应用,真正实现了“听懂”群众需要,大幅提升了座席人员的工作效率。
数据标注产业的爆发式增长不仅体现在市场需求上,更得到了国家层面的高度重视。国家数据局副局长余英在数博会上明确表示,高质量、多模态、精标注的数据是人工智能发展的不竭动力。为此,国家数据局正在指导多个城市建设数据标注基地,探索产业发展的最佳路径。中国电信作为行业领军企业,积极参与其中,已在多个标注基地实现了技术落地。
中国电信在数据标注领域的创新成果不仅体现在方言数据集上,更贯穿于其星辰MaaS平台的每一个环节。该平台构建了“算力-模型-数据-工具-应用”全链条AI服务能力,集成了超80个行业大模型和50多个高质量数据集,能够一站式满足用户的多云算力调度、数据标注处理、大模型训推和行业智能体应用需求。这一平台已在能源、工业、交通、住建等多个行业中得到了广泛应用,取得了显著成效。
以新型工业化领域为例,中国电信利用“翼云控+工业大模型”推动产线智能改造,显著提高了智能加工、物流分拣、视觉质检等环节的生产效率。在某大型制造业企业中,通过部署星辰工业大模型,设备故障率降低了30%,生产效率提升了25%,产品次品率降低了15%,为企业带来了可观的经济效益和社会效益。
在教育领域,中国电信打造的校园帮办大模型和心理健康大模型同样备受瞩目。校园帮办大模型通过整合知识管理、智能问答和数据分析等一体化服务功能,为师生提供了便捷高效的服务体验。而心理健康大模型则通过多轮情感对话赋能校园心理健康服务,为学生提供了专业的情绪疏导。
在交通和政务领域,中国电信同样展现出了强大的技术实力和行业影响力。与中车集团的合作助力交通领域核心生产环节的智能化升级;而星辰政务大模型的应用则大幅提升了热线运营效率和市民感知,为智慧城市建设贡献了重要力量。