ITBear旗下自媒体矩阵:

阿伯丁大学研究:AI时间推理受阻,双重机制影响多语言处理能力

   时间:2026-03-30 19:48:02 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

当用户用中文向ChatGPT询问“2024年春节后第100天是哪天”时,得到的答案偶尔会出现偏差,而同样的问题用英语提问时准确率却显著更高。这种因语言差异导致的时间推理错误现象,引发了跨学科研究团队的关注。由阿伯丁大学与格勒诺布尔阿尔卑斯大学联合开展的研究,通过构建全球首个多语言时间推理基准测试,揭示了人工智能处理时间信息时面临的深层挑战。

研究团队开发的MULTITEMPBENCH测试集包含1.5万个样本,覆盖英语、德语、中文、阿拉伯语和豪萨语五种语言,以及公历、伊斯兰历、农历三种历法系统。实验涉及20个主流大语言模型,要求完成日期计算、时区转换、时间关系判断等复杂任务。结果显示,所有模型在豪萨语等低资源语言上的错误率平均比英语高42%,非公历系统的处理准确率更是不足公历的60%。

词汇切分机制成为首个突破口。研究发现,英语日期“2024-03-15”在高资源语言模型中通常被正确拆分为“2024”“03”“15”三个核心单元,而低资源语言模型可能将其切割为“2”“0”“2”“4”等碎片。这种差异导致豪萨语的日期碎片化比率高达0.78,而英语仅为0.53。研究团队设计的几何探测技术进一步发现,高资源语言模型能在神经网络中形成清晰的时间线性结构,相邻年份的向量表示在高维空间中保持有序排列,这种结构在低资源语言中则呈现混乱状态。

实验数据揭示了双重作用机制:在英语等训练数据充足的语言中,模型即便遭遇切分错误,仍能通过上下文重组时间信息,此时内部表征质量成为决定因素;而在豪萨语等场景下,切分错误直接导致模型无法理解基本时间单元,词汇处理问题占据主导地位。这种转换现象在混合效应回归分析中得到验证,低资源语言中切分质量与任务准确率的相关系数达-0.97,形成强烈负向关联。

研究团队通过创新实验设计确保结论可靠性。他们从现有数据集精选750个英语问题,经母语者翻译验证后扩展为多语言版本,每个问题生成8种日期格式变体,包括本地化表达和特定历法形式。评估环节采用GPT-4o辅助评判与人工验证相结合的方式,确保87%的自动评判结果与人工判断一致。这种严谨设计使研究发现具有广泛适用性,例如40亿参数的Gemma 3模型在特定任务中超越了200亿参数的GPT-OSS。

技术改进路径已现雏形。研究人员建议开发专门的时间实体识别模块,在切分前优先保护日期结构;通过增加低资源语言的时间文本数据,改善训练集的历法多样性;在模型架构中引入独立的时间推理单元,配合几何监督训练强化时间线性表征。这些方案为提升AI的时间理解能力提供了具体方向。

该研究对医疗、法律、金融等关键领域具有直接应用价值。在跨国医疗系统中,药物服用时间、手术安排等环节若因语言差异导致时间计算错误,可能引发严重后果;金融交易中的时限判断、法律文书中的时效规定,同样需要精确的时间处理能力。研究提出的日期碎片化比率指标,为评估AI系统的多语言公平性提供了量化工具,帮助开发者定位模型弱点并进行针对性优化。

尽管研究揭示了重要规律,但团队承认存在局限性。当前低资源语言样本仅包含豪萨语,阿拉伯语等“伪低资源语言”可能掩盖更细致的分布规律;零样本测试设置未考虑提示优化等实际应用场景;数据构建方式依赖英语源问题,可能忽略文化特有的时间表达习惯。这些不足为后续研究指明了方向,特别是需要探索因果验证实验,区分相关性与直接作用关系。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version