在广州大学举办的一场重要学术活动中,一项突破性成果引发广泛关注。粤语语料库建设与大模型评测实验室正式推出AI-DimSum多模态粤语语料库平台,为全球上亿粤语使用者的数字化发展开辟新路径。这一创新成果针对粤语在网络空间面临的资源稀缺问题,构建了覆盖语音、文字、影像的完整数据生态体系。
据项目负责人齐佳音教授介绍,该平台以服务数字中文战略和粤港澳大湾区文化数字化建设为目标,通过标准化采集流程、可追溯数据管理和智能化服务接口,形成具有岭南文化特色的AI应用基础设施。平台突破传统语言资源库的单一功能,将数据采集、标注加工、模型适配等环节整合为模块化系统,实现从原始素材到智能应用的完整闭环。
在数据储备方面,平台已形成多维度的资源矩阵。文字库收录超过百万字的新闻报道、文学作品等文本资料;语音库完成3000小时高保真语音标注,同步积累超1TB音视频素材;影视库特别收录《功夫熊猫》《大圣归来》等热门作品的粤语版本,并配备专业字幕标注。更值得关注的是,平台开发了包含20万道题目的评测体系,可对粤语AI模型进行多维度安全评估。
这个由七个子系统构成的智能平台,创新性地引入确权检索机制和质量评估模块。通过语料采集、智能标注、模型对接、版权管理等功能的有机整合,既保障数据资源的合法流通,又提升AI训练效率。应用商店模块的设立,则为开发者提供了便捷的模型调用和成果发布渠道,形成完整的产业生态链。
业内专家指出,AI-DimSum平台的推出不仅解决了粤语数字化发展的基础设施难题,更通过海量优质语料的积累,显著增强粤语在人工智能时代的表达能力和文化传播力。这种将语言资源保护与数字技术创新相结合的模式,为其他方言的数字化发展提供了可复制的解决方案。











