滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

阿伯丁大学研究：AI时间推理受阻，双重机制影响多语言处理能力

时间：2026-03-30 19:48:02 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

当用户用中文向ChatGPT询问“2024年春节后第100天是哪天”时，得到的答案偶尔会出现偏差，而同样的问题用英语提问时准确率却显著更高。这种因语言差异导致的时间推理错误现象，引发了跨学科研究团队的关注。由阿伯丁大学与格勒诺布尔阿尔卑斯大学联合开展的研究，通过构建全球首个多语言时间推理基准测试，揭示了人工智能处理时间信息时面临的深层挑战。

研究团队开发的MULTITEMPBENCH测试集包含1.5万个样本，覆盖英语、德语、中文、阿拉伯语和豪萨语五种语言，以及公历、伊斯兰历、农历三种历法系统。实验涉及20个主流大语言模型，要求完成日期计算、时区转换、时间关系判断等复杂任务。结果显示，所有模型在豪萨语等低资源语言上的错误率平均比英语高42%，非公历系统的处理准确率更是不足公历的60%。

词汇切分机制成为首个突破口。研究发现，英语日期“2024-03-15”在高资源语言模型中通常被正确拆分为“2024”“03”“15”三个核心单元，而低资源语言模型可能将其切割为“2”“0”“2”“4”等碎片。这种差异导致豪萨语的日期碎片化比率高达0.78，而英语仅为0.53。研究团队设计的几何探测技术进一步发现，高资源语言模型能在神经网络中形成清晰的时间线性结构，相邻年份的向量表示在高维空间中保持有序排列，这种结构在低资源语言中则呈现混乱状态。

实验数据揭示了双重作用机制：在英语等训练数据充足的语言中，模型即便遭遇切分错误，仍能通过上下文重组时间信息，此时内部表征质量成为决定因素；而在豪萨语等场景下，切分错误直接导致模型无法理解基本时间单元，词汇处理问题占据主导地位。这种转换现象在混合效应回归分析中得到验证，低资源语言中切分质量与任务准确率的相关系数达-0.97，形成强烈负向关联。

研究团队通过创新实验设计确保结论可靠性。他们从现有数据集精选750个英语问题，经母语者翻译验证后扩展为多语言版本，每个问题生成8种日期格式变体，包括本地化表达和特定历法形式。评估环节采用GPT-4o辅助评判与人工验证相结合的方式，确保87%的自动评判结果与人工判断一致。这种严谨设计使研究发现具有广泛适用性，例如40亿参数的Gemma 3模型在特定任务中超越了200亿参数的GPT-OSS。

技术改进路径已现雏形。研究人员建议开发专门的时间实体识别模块，在切分前优先保护日期结构；通过增加低资源语言的时间文本数据，改善训练集的历法多样性；在模型架构中引入独立的时间推理单元，配合几何监督训练强化时间线性表征。这些方案为提升AI的时间理解能力提供了具体方向。

该研究对医疗、法律、金融等关键领域具有直接应用价值。在跨国医疗系统中，药物服用时间、手术安排等环节若因语言差异导致时间计算错误，可能引发严重后果；金融交易中的时限判断、法律文书中的时效规定，同样需要精确的时间处理能力。研究提出的日期碎片化比率指标，为评估AI系统的多语言公平性提供了量化工具，帮助开发者定位模型弱点并进行针对性优化。

尽管研究揭示了重要规律，但团队承认存在局限性。当前低资源语言样本仅包含豪萨语，阿拉伯语等“伪低资源语言”可能掩盖更细致的分布规律；零样本测试设置未考虑提示优化等实际应用场景；数据构建方式依赖英语源问题，可能忽略文化特有的时间表达习惯。这些不足为后续研究指明了方向，特别是需要探索因果验证实验，区分相关性与直接作用关系。

他在离别帖文中肯定了团队能力，并写道：“那个团队汇聚的硬件人才令人惊叹，我想世界上应该找不出比他们还优秀的设计团队”。值得注意的是，OpenAI 曾在此前与博通（IT之家注：Broadcom）发布联合公告，…

06-08

猿辅导AI大阅读7月登场，以技术赋能助力青少年破解阅读难题

06-08

长安“天枢大模型”获国家生成式AI备案开启汽车智能化新征程

06-08

理想汽车150亿研发投入见成效！12篇CVPR顶会论文揭秘自动驾驶新进展

06-08

Palantir CEO卡普抨击“词元刷满”风潮：滥用AI如同沉迷色情

06-08

这家中国团队重新定义了计算机

06-08

Notion AI短暂停用Claude模型，官方否认模型质量缺陷

06-08

拿“Codex”当馅儿，豆包才值钱

06-08

苹果发布会预测：今晚你的iPhone，会成这个样子

06-08

CPU重返数据中心C位某国内厂商CPU需求提高了5倍

06-08

国家能源局聚焦油气管道保护：强化科技赋能推广AI与无人机巡线新模式

06-08

海洋“黑科技”大显身手：护生态、助预报、保航运

06-08

第十届“芯动北京”论坛举办，IC PARK成产业核心，多项成果助力创新发展

06-08

峰值300万日活的钉钉ONE：CEO意志绑架下，AI实验如何走向败局？

06-08

AI新招破解海洋走私难题：92%高准确率助力守护海洋生态

06-08

点击查看更多 +

全站最新

理想汽车150亿研发投入见成效！12篇CVPR顶会论文揭秘自动驾驶新进展

12年老司机血泪总结：车漆早衰的3个隐形杀手，你中招了吗？

比亚迪“大汉”登场：以技术为刃，斩开D级豪华车市场新格局

腾势Z9 GT续航破千公里充电快，欧洲定价亲民，中国市场销售火爆

5月新能源乘用车渗透率创新高！燃油车份额萎缩，车市格局生变？

特斯拉Roadster超跑亮相在即，首席设计师透露“几周内”将与公众见面

热门内容

本栏最新

理想汽车150亿研发投入见成效！12篇CVPR顶会论文揭秘自动驾驶新进展

官降3万配置升级！2027款星海V9携五大头等舱价值焕新登场

名爵新能源“技术平权”破局国内市场，海内外双线能否迎来爆发？

云知声U2大模型正式登场：多维度能力进阶，开启AI任务执行新范式

奔驰全新纯电GLC来袭！800V架构配超联屏，续航超700km挑战宝马iX3

槐荫汽车嗨购节落幕：5D座舱、VR奇幻游共绘智能出行新画卷

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.