信息无障碍通道
您的位置:首页>>业界动态

40种语言、9项推理任务,谷歌发布新的NLP基准测试Xtreme

发布时间:2020-04-14  来源:大数据文摘微信公众号 曹培信、刘俊寰   背景: 无障碍通道

  目前,全球存在着超过6900种语言,这是自然语言处理研究者们的巨大噩梦。因为大多数语言都是数据稀疏的,研究者找不到足够多的数据来单独训练成熟模型。

  但幸运的是,许多语言共享大量的基础结构。比如在词汇层面上,语言通常具有源自同一来源的单词,例如,英语中的“desk”和德语中的“Tisch”都来自拉丁语“disus”。同样,许多语言也以相似的方式标记语义角色,例如使用后置位置标记中文和土耳其语的时空关系。

  谷歌今天发布了一个自然语言处理系统基准测试Xtreme,其中包括对12种语言家族和40种语言进行的9项推理任务。这家科技巨头的研究人员断言,它能够评估人工智能模型是否能够学习跨语言的知识,这对于越来越多的自然语言应用程序是有用的。

  谷歌也在官博上介绍了Xtreme:

  https://ai.googleblog.com/2020/04/xtreme-massively-multilingual-multi.html

  这一基准测试的目标是促进人工智能多语言学习领域的研究,在这个领域,已经有大量工作研究了是否可以利用数据稀疏的语言结构来训练可靠的机器学习模型。

  选择Xtreme作为基准测试是为了最大限度地扩大多样性,扩大现有任务的覆盖面,以及提供训练数据。其中包括一些未被充分研究的语言,例如在印度南部、斯里兰卡和新加坡使用的达罗毗荼语系语言泰米尔语,主要在印度南部使用的泰卢固语和马拉雅拉姆语,以及在非洲使用的尼日尔-刚果语系斯瓦希里语和约鲁巴语。

  Xtreme的9项任务涵盖了一系列基本范式,包括句子分类(即将一个句子分配给一个或多个类)和结构化预测(预测实体和词类等对象) ,以及句子检索(对一组记录进行查询匹配)和高效的问答。

  ▲ Google的Xtreme基准支持的任务

  模型要先在跨语言学习的文本上进行预训练后,才能在Xtreme上进行测试。然后,考虑到英语是最有可能具有标记数据的语言,他们必须针对特定任务的英语数据进行微调。Xtreme评估了这些模型的零点跨语言转移性能(zero-shot cross-lingual transfer performance),也就是在其他语言中没有看到任务特定的数据。对于在其他语言中可以使用标记数据的任务,Xtreme还比较了对语言内数据的微调,并通过获得所有任务的零概率得分最终得出一个综合分数。

  在Xtreme初步实验中,谷歌的一个研究团队发现,即使是最先进的多语言模型,如BERT、XLM、XLM-r和M4,也都没有达到预期水平。其中,BERT对西班牙语的准确率为86.9/100,日语则只有49.2/100,要转换成非拉丁文字也十分困难,而所有的模型都很难预测到在英语训练数据中没有看到的远方语言的实体,比如,在印度尼西亚语和斯瓦希里语上的准确率分别为58.0和66.6,而在葡萄牙语和法语上的准确率为82.3和80.1。

  Google Research高级软件工程师Melvin Johnson和DeepMind科学家Sebastian Ruder在一篇博客文章中写道:“我们发现,尽管模型在大多数现有的英语任务中,表现已接近人类,但在许多其他语言中表现尚不足预期。总的来说,在模型和模拟环境中,英语和其它语言的表现之间仍然存在巨大差距,这也表明,跨语言迁移的研究潜力很大。”

  Xtreme基准测试的代码和数据已经在GitHub上开源,还有运行各种基线的示例。

  GitHub链接:https://github.com/google-research/xtreme

特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。


返回网站首页 本文来源:大数据文摘微信公众号

本文评论
BCS 2020“安全运营中心建设与发展高峰论坛”成功召开
8月12日,BCS 2020安全运营中心建设与发展高峰论坛成功召开。论坛邀请到中国电子信息产业发展研究院...
日期:08-12
BCS 2020举办区块链安全论坛 多方专家共议区块链在垂直行业的应用
8月11日下午,有着网络安全行业“达沃斯”之称的北京网络安全大会(以下简称BCS 2020),正...
日期:08-12
腾讯Q2财报:小程序交易额环比回升 公众号内容消费重焕活力
8月12日,腾讯发布二季报,数据显示,2020年上半年实现收入1148.83亿元,同比增长29%;Non-IFRS净利润301...
日期:08-12
应对联发科强劲需求,芯片测试商京元电子与矽格准备提高产能
8 月 12 日消息,据国外媒体报道,在此前的报道中,外媒曾提到在 5G 智能手机处理器方面有很大进展...
日期:08-12
摩托罗拉新机XT2081-2获FCC认证:配5000mAh电池
据外媒报道,一款型号为XT2081-2的摩托罗拉手机出现在FCC认证网站上。虽然该网站没有透露手机的营销...
日期:08-12
苏宁易购引领未来零售5G发展趋势,终端裂变重塑零售形态
近日,全场景智慧零售服务商苏宁易购与全球化监测和数据分析公司尼尔森联合发布首份零售行业5G应用发...
日期:08-12
台积电 3 家晶圆厂设备供应商 7 月营收同比大增,最高接近 80%
8 月 12 日消息,据国外媒体报道,为苹果等公司代工芯片的台积电,近几年在芯片制程工艺方面走在行...
日期:08-12
京东全资控股五星电器,成立新公司 “京东五星电器集团”
8 月 12 日消息,京东宣布全资控股五星电器,成立新公司拟定名为京东五星电器集团有限公司。
日期:08-12
BCS2020技术峰会:内生安全框架推动网络安全技术体系升级
8月12日,2020北京网络安全大会(BCS 2020)技术峰会正式召开。来自中、美、以等全球顶级的网络安全技...
日期:08-12
消息称三星与 ARM 和 AMD 合作,目标成为第一大 Android 应用处理器制造商
8 月 12 日消息 据 Business Korea 的最新报道,三星的目标是通过与 ARM 和 AMD 合作,成为第一大 A...
日期:08-12
近80% CEO预测远程办公是趋势 BCS2020举行远程办公与智能终端安全论坛
今年年初,突如其来的新冠“黑天鹅”,加速了远程办公的落地,远程办公系统与智能终端安...
日期:08-12
卢伟冰:Redmi K30 Pro因高刷缺席被喷 这次投入2亿重做K30至尊纪念版
作为Redmi的旗舰产品,Redmi K30 Pro因60Hz AMOLED屏成为不少米粉心中的小遗憾。
日期:08-12
Facebook 面临新指控:Instagram 被诉非法收集用户生物识别数据牟利
Facebook 最近又面临一项新的指控,称该公司非法收集用户的生物识别数据。这次诉讼的对象是 Faceboo...
日期:08-12
一加Nord新配色将于10月初推出 还有更便宜版本出售
据外媒消息,一加将于10月初推出一加Nord新配色——尘灰色(Gray Ash)。
日期:08-12
Realme证实C12/C15入门新机即将登陆印度市场 售价或低于10000卢比
在曝光了各种认证信息后不久,Realme 已证实将向印度市场投放 C12 和 C15 入门新机。早些时候,售价...
日期:08-12
TCL 发布 Mini LED 屏电视:最高支持 120Hz 可变刷新率
TCL 发布了最新一代 5 系列和 6 系列 Roku 电视,其中 6 系列电视最大特点是有 Mini LED 显示背光技...
日期:08-12
Nutanix混合云基础架构现已支持亚马逊云服务(AWS)
携手AWS,Nutanix Clusters支持应用云间无缝迁移及统一操作,助力企业加速云上旅程
日期:08-12
消息称可折叠苹果 iPad 2023 年发布:无铰链 + 屏下摄像头 + 3nm 芯片
关于可折叠 iPad 的讨论已经在进行中,有传言称该平板电脑的显示尺寸与 MacBook 相当。今天,推特爆...
日期:08-12
XSKY星辰天合发布全新下一代分布式文件系统XGFS
非结构化数据正以前所未有的速度增长。IDC的预测表明,到2025年,全球将有80%的数据是非结构化的。...
日期:08-12
买iPhone最值的时候来了!京东热8购物季iPhone 11低至4599元
暑假过半,考研复习进入关键时期。考研是一项全靠主观能动性的学习,调整好复习状态固然重要,但学...
日期:08-12
  专栏介绍
半斤 的专栏
半斤发表的文章
积分:
自我介绍 :