滚动资讯

当前位置：首页 > 资讯 > 数码极客 > 正文内容

击败苹果、AI2等多支强队百度拿下MRQA 2019阅读理解国际评测冠军

时间：2019-08-19 15:07:19 来源：互联网编辑：星辉 IP：北京 发表评论无障碍通道

在国际自然语言处理领域颇具影响力的百度，再传捷报，再度夺冠。2019年8月12日，MRQA 2019阅读理解国际评测落下帷幕。得益于自研开源深度学习平台飞桨(PaddlePaddle)的强势助攻，百度以平均 F1 值72.55%，超出第二名近两个百分点的绝对优势获得冠军。同时，在全部12个测试数据集中的10个上均排名第一。

本届评测吸引了来自苹果公司、艾伦人工智能研究院(AI2)、哈工大讯飞联合实验室、香港科技大学、富士施乐等全球知名企业和高校研究院所队伍的参与，高手如云。

MRQA 2019阅读理解国际评测最终榜单百度排名第一

MRQA全称是Machine Reading for Question Answering，即问答阅读理解。问答阅读理解是自然语言处理领域当前最热门的研究方向之一，已成为评估机器语言理解能力的重要方式，也是搜索引擎和对话系统等行业应用中的关键技术。第二届MRQA workshop(MRQA 2019) 将于今年11月在自然语言处理领域顶级学术会议EMNLP 2019上举办。本届研讨会在Research Track的基础上，设立了一个新的问答阅读理解评测。与以往仅聚焦于单个数据集的阅读理解评测不同，本次评测主要有两大挑战：

首先，本次评测包括训练集和测试集共18个阅读理解数据集，覆盖面广，综合难度高。针对语言理解所应解决的不同挑战，评测从多个角度考察了阅读理解模型理解语言的能力。从数据源角度看，其文档来源是多样化的，包括百科、新闻、搜索结果、电影、生物医药甚至演讲脚本。从应用任务角度来看，评测不仅包含了面向问答设计的数据集，还包含了面向信息抽取、语义解析等任务设计的数据集。此外，从语言理解的能力来看，评测除了包含传统的抽取式问答数据集，还包含了多个需要推理和计算的数据集。本次评测可谓机器阅读理解的“十项全能赛”。

本次评测的18个数据集

更重要的是，本次评测要求参赛队伍仅可使用6个数据集训练一个统一的阅读理解模型，之后在其它12个分布各异的数据集上测试模型效果。更困难的是，测试阶段中有6个在训练阶段完全没见过的未知来源数据集。数据集分布的巨大差异和测试数据来源的完全未知为参评系统带来了极大的挑战。这样的评测设置重点考察了阅读理解模型的泛化能力。模型的泛化能力通俗来讲就是模型对未知数据的预测能力，它是机器学习模型最重要的性质之一，决定了模型是否真正具备实用性。能够解决好该问题，意味着模型具有了一定的通用能力，在实际应用中面对不确定的数据，也能够达到可用的效果。

百度D-NET通用“预训练-微调”模型训练框架

针对上述问题，百度在本次评测中提出了一个通用的“预训练-微调”模型训练框架D(ecathlon)-NET。目前，“预训练-微调”在自然语言处理领域已成为一种新的、被广泛采用的学习范式，即首先在大规模无标签语料上以语言模型为目标进行预训练，然后再针对特定任务，如阅读理解进行针对性的微调。百度提出的D-NET框架主要包括以下优势：

在预训练阶段，采用了基于飞桨深度学习框架中的多种预训练模型，融合了多种预训练模型的优势，获得了比官方基线更好的效果。

在微调之前，D-NET引入了针对更多领域数据的进一步预训练，以提升模型在特定领域上的适应性，弥补预训练模型语料分布的局限性。

在微调过程中，D-NET采用了基于飞桨多任务学习框架进行多任务学习。在多任务学习的过程中利用了其它有标注的自然语言处理数据集(如自然语言推断、段落排序等)学习更好的语言表示，从而提升模型的泛化能力。“预训练-微调”学习范式在微调阶段的一个问题是容易发生灾难性遗忘。因此，D-NET在微调过程中引入了防止灾难性遗忘的机制。

在微调结束后，D-NET使用飞桨知识蒸馏框架提升单模型效果，以满足本次评测对模型效率的要求。

D-NET能在本次评测中获得第一，得益于飞桨(PaddlePaddle) “多，快，好，省”的四大优势：

“多”：飞桨提供了多种预置的预训练模型，方便开发者仅使用几行代码，即可调用各种预训练模型。正是得益于飞桨中的多种预训练模型库，D-NET融合了各种预训练模型的优势，获得了更好的效果。

项目地址：https://github.com/PaddlePaddle/models/tree/v1.5.1/PaddleNLP

https://github.com/PaddlePaddle/ERNIE

“快”： MRQA2019技术评测的一大挑战是要处理大规模的阅读理解数据。飞桨的高性能分布式训练框架，帮助开发者可以通过仅仅的几行代码，即可让模型进行分布式训练。值得一提的是，为了克服多节点之间通信带来的性能瓶颈，飞桨从梯度压缩，动态混合精度训练，梯度同步算法等方面进行了多项性能优化，使得训练大规模复杂模型的多机加速比提高至77%，极大地缩短了MRQA2019评测策略调研的周期，提高了实验的效率。

项目地址：https://github.com/PaddlePaddle/Fleet

“好”： D-NET的一个核心思想是让模型同时从不同类型的语料、不同的自然语言理解任务中进行学习，并将学习到的知识融会贯通，达到举一反三，增强泛化能力的作用。开发多任务学习最大的痛点就是要灵活地调度参数和任务。为此，飞桨开发了一套针对多任务学习场景的高级库PALM(PAddLe Multi-task，预计在Paddle Fluid 1.6版本中开源，敬请期待)，让用户只需要开发几十行代码，就可以轻松完成不同模型间参数和任务的调度。

“省”： D-NET夺冠的另外一个秘密武器就是飞桨提供的高性能预测引擎和模型压缩库PaddleSlim。PaddleSlim提供了丰富高效的模型压缩算法，可以在不损失预测精度的前提下，通过剪枝，量化，蒸馏等算法，将多个复杂神经网络压缩至一个简单网络，从而提高预测速度并降低显存消耗。除此之外，飞桨还针对不同硬件资源的特点在底层进行了一系列的优化，进一步提升了模型在预测部署时的性能和效率，使得D-NET在最终结果提交阶段，在有限的时间和空间内，可以集成更多复杂模型算法，提升模型在真实预测部署场景的精度和效果。

项目地址：https://github.com/PaddlePaddle/models/tree/v1.5.1/PaddleSlim

机器阅读理解任务，是衡量机器理解人类语言综合水平的重要方式。MRQA阅读量理解评测取得的进展，将有力推动机器阅读理解技术的发展。同时在产业中，机器阅读理解是构建问答和对话系统的关键技术之一。百度机器阅读理解技术已广泛应用于百度内外，包括搜索、小度音箱等一系列产品中，为数亿用户提供精准问答。

更多>同类资讯

11岁男孩用学而思学习机打开喜马拉雅APP竟跳出黄色视频

03-05

雷蛇毒蝰V4专业版鼠标包装现身延续炼狱蝰蛇V4专业版同款无线接收器

03-05

iQOO产品经理简重官宣离职九年征程后将挑战全新领域探索人生可能

03-05

蓝宝石RX 9070 XT显卡实战：2K光追畅玩《生化危机9》的性价比之选

接着我们将分辨率提升到了2K，《生化危机9：安魂曲》对显卡性能的要求也随之提升，蓝宝石PURE极地RX 9070 XT 16G D6OC的性能优势也更加明显。RTX 5070 Ti当前主流价格已经来到了7…

03-05

金刚石冷却技术助力AI服务器升级，Akash Systems实现H200与MI350X系统出货

IT之家 3 月 4 日消息，金刚石（钻石）拥有优秀的热传导能力，显著优于目前在电脑中广泛应用的铜。 Akash Systems 正是一家专注于金刚石冷却技术的企业，曾一度位列美国《CHIPS》法案拟议资助名…

03-05

飞傲M33 R2R便携播放器：双音色模式下的音质新体验与搭配探索

其实最早发布会上的M33 R2R工程样机给我的印象和飞傲前面几款偏向中低端的桌面R2R器材类似，整体的声音还是倾向于“暖糊”的，但在正式版上市之后，我发现它从产品功能到声音审美，都多了不少出乎意料的新鲜感。除…

03-05

松下拟投资75亿日元在华新建Megtron电路板材料生产线

03-04

“航天小鼠”回地球后生育力爆棚，三胎高产助力太空生命繁衍研究

这次最有意思的发现是，上过太空的这只鼠妈妈，居然比普通小鼠还能生。正常情况下，地面小鼠一胎也就生育5到7只，而这位“航天小鼠妈妈”三胎分别生了9只、10只和9只，每胎都多出来两三只。更令人期待的还在后面，…

03-04

西北农林团队突破：3D建模助力奶山羊精准养殖新篇章

03-04

新款铃木雨燕运动轿车惊艳登场，以独特魅力搅动车界风云

03-04

AOC新动作：G24B36Z与G25B36SN小尺寸高刷显示器惊艳亮相

03-04

歌尔光学全资成立新公司，注册资本1亿，布局光学与虚拟现实领域

03-04

蔚来乐道L90激光雷达款车型今年第二季度正式发布

03-04

乐道L90激光雷达版二季度登场与纯视觉版共拓双智驾新格局

03-04

2026年元宵节邂逅月全食，“红月亮”点亮夜空添浪漫，下次再逢要等46年

03-04

点击查看更多 +

全站最新

创业板指涨超3% 超4400股上涨

华为896线激光雷达发布！智能驾驶"高线数时代"来临

港股异动丨石油股继续回调中海油跌超2%日前曾创新高油价飙升特朗普发声打压

港股异动丨铝业股继续活跃中国宏桥涨超3%逼近历史高位中东局势推高铝价

海内外需求共振催化电网行情，电网设备ETF涨超4%，电网设备ETF广发、电网ETF、电网设备ETF易方达涨超3%

华为896线激光雷达发布！智能驾驶"高线数时代"来临

热门内容

本栏最新

iQOO产品经理简重官宣离职九年征程后将挑战全新领域探索人生可能

新款铃木雨燕运动轿车惊艳登场，以独特魅力搅动车界风云

新能源汽车专属车位如何高效管理？智能系统精准管控与人性化服务并重

蔚来乐道L90激光雷达版二季度登场双智驾方案同步开售

瑞萨R-Car V4H ADAS SoC助力丰田第六代RAV4 提升智能驾驶体验

新款雷克萨斯ES轿车惊艳登场，以卓越风范引领豪华出行新潮流

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.

击败苹果、AI2等多支强队 百度拿下MRQA 2019阅读理解国际评测冠军

击败苹果、AI2等多支强队百度拿下MRQA 2019阅读理解国际评测冠军