ITBear旗下自媒体矩阵:

粤语数字化里程碑!广州大学发布 AI-DimSum 多模态语料库平台

   时间:2025-12-08 15:49:15 来源:CHINAZ编辑:快讯 IP:北京 发表评论无障碍通道
 

12月6日至7日,第十届语言服务高级论坛在广州大学举行。会上,粤语语料库建设与大模型评测实验室重磅发布了其研发的 AI-DimSum 多模态粤语语料库平台,标志着在全球拥有上亿用户的粤语在数字化发展中迈入新阶段。

突破低资源困境 广州大学教授齐佳音介绍,粤语在网络世界中属于“低资源语言”。该平台围绕“数字中文建设”和“大湾区文化数字化”需求,构建了一个基于岭南文化、面向AI应用的多模态语料数据生态系统,遵循“标准先行、数据可溯、服务可用”原则。

一体化、模块化基础设施 AI-DimSum平台由语料采集、标注、大模型对接、确权检索、质量评估、管理及应用商店等七个子系统构成,实现了从数据采集到模型接入与应用发布的一体化、模块化流程。

海量语料支撑 该语料库汇聚了丰富的多模态资源,为AI训练提供坚实基础:

文本:超过100万字(涵盖新闻、文学等)。

音视频:完成3000小时高保真语音标注及1TB以上音视频资料。

影视:包含《功夫熊猫》《大圣归来》《外来媳妇本地郎》等带有粤语字幕与标注的作品。

评测:构建了超过20万道粤语大模型内容安全多模态评测题。

该平台的发布将极大提升粤语在大模型时代的应用能力和文化传承价值。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version