您的位置:首页>>互联网

击败苹果、AI2等多支强队 百度拿下MRQA 2019阅读理解国际评测冠军

发布时间:2019-08-19 15:07:19  来源:互联网    背景:

  在国际自然语言处理领域颇具影响力的百度,再传捷报,再度夺冠。2019年8月12日,MRQA 2019阅读理解国际评测落下帷幕。得益于自研开源深度学习平台飞桨(PaddlePaddle)的强势助攻,百度以平均 F1 值72.55%,超出第二名近两个百分点的绝对优势获得冠军。同时,在全部12个测试数据集中的10个上均排名第一。

  本届评测吸引了来自苹果公司、艾伦人工智能研究院(AI2)、哈工大讯飞联合实验室、香港科技大学、富士施乐等全球知名企业和高校研究院所队伍的参与,高手如云。

图片包含 屏幕截图

描述已自动生成

  MRQA 2019阅读理解国际评测最终榜单百度排名第一

  MRQA全称是Machine Reading for Question Answering,即问答阅读理解。问答阅读理解是自然语言处理领域当前最热门的研究方向之一,已成为评估机器语言理解能力的重要方式,也是搜索引擎和对话系统等行业应用中的关键技术。第二届MRQA workshop(MRQA 2019) 将于今年11月在自然语言处理领域顶级学术会议EMNLP 2019上举办。本届研讨会在Research Track的基础上,设立了一个新的问答阅读理解评测。与以往仅聚焦于单个数据集的阅读理解评测不同,本次评测主要有两大挑战:

  首先,本次评测包括训练集和测试集共18个阅读理解数据集,覆盖面广,综合难度高。针对语言理解所应解决的不同挑战,评测从多个角度考察了阅读理解模型理解语言的能力。从数据源角度看,其文档来源是多样化的,包括百科、新闻、搜索结果、电影、生物医药甚至演讲脚本。从应用任务角度来看,评测不仅包含了面向问答设计的数据集,还包含了面向信息抽取、语义解析等任务设计的数据集。此外,从语言理解的能力来看,评测除了包含传统的抽取式问答数据集,还包含了多个需要推理和计算的数据集。本次评测可谓机器阅读理解的“十项全能赛”。

  本次评测的18个数据集

  更重要的是,本次评测要求参赛队伍仅可使用6个数据集训练一个统一的阅读理解模型,之后在其它12个分布各异的数据集上测试模型效果。更困难的是,测试阶段中有6个在训练阶段完全没见过的未知来源数据集。数据集分布的巨大差异和测试数据来源的完全未知为参评系统带来了极大的挑战。这样的评测设置重点考察了阅读理解模型的泛化能力。模型的泛化能力通俗来讲就是模型对未知数据的预测能力,它是机器学习模型最重要的性质之一,决定了模型是否真正具备实用性。能够解决好该问题,意味着模型具有了一定的通用能力,在实际应用中面对不确定的数据,也能够达到可用的效果。

  百度D-NET通用“预训练-微调”模型训练框架

  针对上述问题,百度在本次评测中提出了一个通用的“预训练-微调”模型训练框架D(ecathlon)-NET。目前,“预训练-微调”在自然语言处理领域已成为一种新的、被广泛采用的学习范式,即首先在大规模无标签语料上以语言模型为目标进行预训练,然后再针对特定任务,如阅读理解进行针对性的微调。百度提出的D-NET框架主要包括以下优势:

  在预训练阶段,采用了基于飞桨深度学习框架中的多种预训练模型,融合了多种预训练模型的优势,获得了比官方基线更好的效果。

  在微调之前,D-NET引入了针对更多领域数据的进一步预训练,以提升模型在特定领域上的适应性,弥补预训练模型语料分布的局限性。

  在微调过程中,D-NET采用了基于飞桨多任务学习框架进行多任务学习。在多任务学习的过程中利用了其它有标注的自然语言处理数据集(如自然语言推断、段落排序等)学习更好的语言表示,从而提升模型的泛化能力。“预训练-微调”学习范式在微调阶段的一个问题是容易发生灾难性遗忘。因此,D-NET在微调过程中引入了防止灾难性遗忘的机制。

  在微调结束后,D-NET使用飞桨知识蒸馏框架提升单模型效果,以满足本次评测对模型效率的要求。

  D-NET能在本次评测中获得第一,得益于飞桨(PaddlePaddle) “多,快,好,省”的四大优势:

  “多”:飞桨提供了多种预置的预训练模型,方便开发者仅使用几行代码,即可调用各种预训练模型。正是得益于飞桨中的多种预训练模型库,D-NET融合了各种预训练模型的优势,获得了更好的效果。

  项目地址:https://github.com/PaddlePaddle/models/tree/v1.5.1/PaddleNLP

  https://github.com/PaddlePaddle/ERNIE

  “快”: MRQA2019技术评测的一大挑战是要处理大规模的阅读理解数据。飞桨的高性能分布式训练框架,帮助开发者可以通过仅仅的几行代码,即可让模型进行分布式训练。值得一提的是,为了克服多节点之间通信带来的性能瓶颈,飞桨从梯度压缩,动态混合精度训练,梯度同步算法等方面进行了多项性能优化,使得训练大规模复杂模型的多机加速比提高至77%,极大地缩短了MRQA2019评测策略调研的周期,提高了实验的效率。

  项目地址:https://github.com/PaddlePaddle/Fleet

  “好”: D-NET的一个核心思想是让模型同时从不同类型的语料、不同的自然语言理解任务中进行学习,并将学习到的知识融会贯通,达到举一反三,增强泛化能力的作用。开发多任务学习最大的痛点就是要灵活地调度参数和任务。为此,飞桨开发了一套针对多任务学习场景的高级库PALM(PAddLe Multi-task,预计在Paddle Fluid 1.6版本中开源,敬请期待),让用户只需要开发几十行代码,就可以轻松完成不同模型间参数和任务的调度。

  “省”: D-NET夺冠的另外一个秘密武器就是飞桨提供的高性能预测引擎和模型压缩库PaddleSlim。PaddleSlim提供了丰富高效的模型压缩算法,可以在不损失预测精度的前提下,通过剪枝,量化,蒸馏等算法,将多个复杂神经网络压缩至一个简单网络,从而提高预测速度并降低显存消耗。除此之外,飞桨还针对不同硬件资源的特点在底层进行了一系列的优化,进一步提升了模型在预测部署时的性能和效率,使得D-NET在最终结果提交阶段,在有限的时间和空间内,可以集成更多复杂模型算法,提升模型在真实预测部署场景的精度和效果。

  项目地址:https://github.com/PaddlePaddle/models/tree/v1.5.1/PaddleSlim

  机器阅读理解任务,是衡量机器理解人类语言综合水平的重要方式。MRQA阅读量理解评测取得的进展,将有力推动机器阅读理解技术的发展。同时在产业中,机器阅读理解是构建问答和对话系统的关键技术之一。百度机器阅读理解技术已广泛应用于百度内外,包括搜索、小度音箱等一系列产品中,为数亿用户提供精准问答。

特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。


返回网站首页 本文来源:互联网

本文评论
友情提示:评论功能暂时关闭,请扫描上方二维码进群交流!
5G赋能未来 第十一届天翼智能生态博览会开幕
9月19日,由中国电信携手高通(Qualcomm)公司举办的第十一届天翼智能生态博览会在广州正式开幕。本届...
日期:09-19
容联AI推“智能IVR导航” 打造企业客服“总枢纽”
2019年,全球人工智能产业进入了落地应用的高峰期,商业化成为行业焦点。各类人工智能技术都已经进...
日期:09-19
精彩预告|2019年杭州云栖·ZStack带你看点不一样的!
2019年是个不一样的日子...
  这一年,是祖国70周年华诞。
  这一年,ZStack发布了ZS...
日期:09-19
全新色彩勾勒潮酷经典 荣耀20 PRO×RVG×STM联名限量鞋只送不卖
伴随着亚文化浪潮的来袭,生来便重视自我表达、喜欢张扬无束的Z世代群体已悄然崛起,并渐渐地登上了消...
日期:09-19
亲密爱人的声音也能成为地图语音包?百度地图语音定制上线满足你这个心愿
出行使用地图的时候,你是否想象过,能让家人的声音时刻陪伴?十一旅游还用自己的声音听景区解读?
日期:09-19
关爱码农,拒绝瞎眼:微软在GitHub上推出Cascadia Code新字体
9月19日消息 此前,微软在Build2019上宣布将面向开发人员推出全新的Cascadia Code字体,目前这一字...
日期:09-19
慧荣科技于CFMS 2019推出最新企业级存储主控芯片解决方案,打造5G/AI新势力!
全球NAND闪存主控芯片设计与营销领导品牌——慧荣科技(Silicon Motion Technology Corpor...
日期:09-19
元典科技履行社会责任,为社会培养优秀电商人才
随着互联网普及率的不断提高,中国电商稳步发展。据相关数据显示,2019年上半年,我国的网络零售总...
日期:09-19
2019国家网络安全宣传周校园日:腾讯安全专家披露校园非法网贷隐藏套路
9月17日上午,2019年国家网络安全宣传周“校园日”专场活动在天津大学正式启动。教育部思...
日期:09-19
跨境抓获诈骗团伙150人 重庆公安向云天励飞发来感谢信!
近日,重庆市公安局渝北区分局,给云天励飞发来了感谢信。
日期:09-19
德勤与华为云达成战略合作,加速政企上云进程
在2019华为全联接大会,德勤亚太市场总裁蒋颖女士代表德勤与华为云业务总裁郑叶来宣布双方达成战略...
日期:09-19
81%零售行业百强企业开通企业微信:他们如何用好“连接”能力?
9月19日,微信公开课零售专场在上海举行。现场,企业微信首次推出了“智慧零售四锦囊”&mda...
日期:09-19
徐工汉云携手华为鲲鹏计算,打造工业互联网解决方案
在HUAWEI CONNECT 2019期间,徐工信息汉云携手华为鲲鹏计算发布工业互联网解决方案。徐工信息汉云与...
日期:09-19
中航勘察设计研究院数字化路径:致远互联助推运营管理升级
随着信息技术的快速发展,勘察设计企业正在从战略上逐步进行数字化转型升级,以谋求在数字经济时代...
日期:09-19
华为云发布112款云服务,加速企业智能化升级
华为2019全联接大会第二天主题演讲,华为Cloud&AI产品与服务总裁侯金龙正式发布69款基于鲲鹏处...
日期:09-19
“如程”谴责山寨平台冒名侵权,提醒消费者警惕“李鬼”
会员制特色酒店预订平台如程近日发布公告,谴责“小野民宿”假冒如程名义销售其自有产品...
日期:09-19
及刻助力努比亚升级大小场景 智慧服务随逛随享
我们在逛商场时,面对海量店铺,如何可以一站式获取商场以及门店的优惠?近日,努比亚智慧服务上线了...
日期:09-19
什么是百度工程师文化?来听崔珊珊讲这9个故事
入秋,又有一批学子们告别了最后一个暑假,转身走到求职的人群中。
日期:09-19
强强联合!国双与航班管家携手赋能智慧出行
9月17日,北京国双科技有限公司(简称国双)与航班管家母公司——深圳市活力天汇科技股份有...
日期:09-19
ofo悄悄搬离中关村
(原标题:ofo悄悄搬离中关村:仍有超1500万用户等待退押金)
日期:09-19
  专栏介绍
海露 的专栏
海露发表的文章
积分:
自我介绍 :