您的位置:首页>>互联网

BERT和ERNIE谁更强?这里有一份4大场景的细致评测

发布时间:2019-06-17 18:35:11  来源:互联网    采编:张玉翠  背景:

  BERT和ERNIE,NLP领域近来最受关注的2大模型究竟怎么样?刚刚有人实测比拼了一下,结果在中文语言环境下,结果令人意外又惊喜。具体详情究竟如何?不妨一起围观下这篇技术评测。

  1.  写在前面

  随着2018年ELMo、BERT等模型的发布,NLP领域终于进入了“大力出奇迹”的时代。采用大规模语料上进行无监督预训练的深层模型,在下游任务数据上微调一下,即可达到很好的效果。曾经需要反复调参、精心设计结构的任务,现在只需简单地使用更大的预训练数据、更深层的模型便可解决。

  随后在2019年上半年,百度的开源深度学习平台PaddlePaddle发布了知识增强的预训练模型ERNIE,ERNIE通过海量数据建模词、实体及实体关系。相较于BERT学习原始语言信号,ERNIE直接对先验语义知识单元进行建模,增强了模型语义表示能力。

  简单来说,百度ERNIE采用的Masked Language Model是一种带有先验知识Mask机制。可以在下图中看到,如果采用BERT随机mask,则根据后缀“龙江”即可轻易预测出“黑”字。引入了词、实体mask之后,“黑龙江”作为一个整体被mask掉了,因此模型不得不从更长距离的依赖(“冰雪文化名城”)中学习相关性。

 

  除此之外,百度ERNIE还引入了DLM(对话语言模型)任务,通过这种方式来学习相同回复对应的query之间的语义相似性。实验证明DLM的引入对LCQMC(文本相似度计算)系列任务带来了较大的帮助。最终ERNIE采用多源训练数据,利用高性能分布式深度学习平台PaddlePaddle完成预训练。

  2.  亲测

  到底百度ERNIE模型所引入训练机制有没有起到作用,只有实践了以后才知道。为此,我亲自跑了BERT和ERNIE两个模型,在下面的几个场景中得到了预测结果。

  2.1  完形填空

  完形填空任务与预训练时ERNIE引入的知识先验Mask LM任务十分相似。从下图的比较中我们可以看到,ERNIE对实体词的建模更加清晰,对实体名词的预测比BERT更准确。例如BERT答案“周家人”融合了相似词语“周润发”和“家人”结果不够清晰;“市关村”不是一个已知实体;“菜菜”的词边界是不完整的。ERNIE的答案则能够准确命中空缺实体。

 

  2.2 NER ( 命名 识别 )

  在同样为token粒度的NER任务中,知识先验Mask LM也带来了显著的效果。对比MSRA-NER数据集上的F1 score表现,ERNIE与BERT分别为93.8%、92.6%。在PaddleNLP的LAC数据集上,ERNIE也取得了更好的成绩,测试集F1为92.0%,比BERT的结果90.3%提升了1.7%。分析二者在MSRA-NER测试数据中二者的预测结果。可以观察到:

  1.)ERNIE对实体理解更加准确:“汉白玉”不是实体类型分类错误;

  2.)ERNIE对实体边界的建模更加清晰:“美国法律所”词边界不完整,而“北大”、“清华”分别是两个机构。

  Case对比:摘自MSRA-NER数据测试集中的三段句子。B_LOC/I_LOC为地点实体的标签,B_ORG/L_ORG为机构实体的标签,O为无实体类别标签。下表分别展现了 ERNIE、BERT模型在每个字上的标注结果。

 

 

 

  2.3  相似度

  ERNIE在训练中引入的DLM能有效地提升模型对文本相似度的建模能力。因此,我们比较文本相似度任务LCQMC数据集上二者的表现。从下表的预测结果可以看出,ERNIE学习到了中文复杂的语序变化。最终ERNIE与BERT在该任务数据的预测准确率为87.4%、87.0%.

 

  2.4 

 

  最后,比较应用最广泛的情感分类任务。经过预训练的ERNIE能够捕捉更加细微的语义区别,这些句子通常含有较委婉的表达方式。下面展示了PaddleNLP情感分类测试集上ERNIE与BERT的打分表现:在句式“不是很…”中含有转折关系,ERNIE能够很好理解这种关系,将结果预测为“消极”。在ChnSentiCorp情感分类测试集上finetune后ERNIE的预测准确率为95.4%,高于BERT的准确率(94.3%)。

  从以上数据我们可以看到,ERNIE在大部分任务上都有不俗的表现。尤其是在序列标注、完形填空等词粒度任务上,ERNIE的表现尤为突出,一点都不输给Google的BERT。




关注ITBear科技资讯公众号(itbear365 ),每天推送你感兴趣的科技内容。

特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。


返回网站首页 本文来源:互联网

本文评论
天猫618家电大爆发,美的、海尔、格力跻身“亿元俱乐部”
史上最大规模天猫 618 进入冲刺阶段。6 月 16 日,天猫家电行业整体爆发。大家电仅用 90 分钟就打破...
日期:06-17
高校“毕业大集”开市:“00后”学生热衷向毕业学长、学姐“淘宝”
又是一年毕业季,毕业生和母校离别之际,各大高校的跳蚤市场也热闹起来。
日期:06-17
北京大数据展开幕在即,杰和科技展台亮点预告
【前言】杰和科技将携其自主研发的多媒体信息发布管理系统GDSM、GPU虚拟化解决方案以及下一代桌面云...
日期:06-17
CES Asia 落幕,从科大讯飞产品看出这些趋势
6月13日,为期三天的CES Asia 2019落幕。在今年的CES Asia上,5G、人工智能等成为大热名词。人工智...
日期:06-17
苏宁易购荣耀618钜惠来袭:全场最高优惠1300元,以旧换新更潮值
一年一度的618年中大促正在火热进行中,苏宁易购平台多款手机数码产品均有优惠。其中,荣耀表现抢眼...
日期:06-17
走心点评助力618,返现全额免单大奖等你来拿
年中最大的促销活动618即将到来,如此重大的促销节日自然少不了耕升的身影,而除了618期间的满减大...
日期:06-17
天猫618国货有多牛?“亿元俱乐部”国货占比超6成
越来越多的国货,正在成为中国人购物车里的主角。天猫618亮出了一份最新成绩单:苹果、美的、耐克、...
日期:06-17
AI+教育撬动早教机市场:最强“全天候英语熏教规划”助力语言启蒙
技术赋能是教育信息化发展的关键,随着近年来人工智能产业政策密集出台,以及教育信息化2.0政策的推...
日期:06-17
腾讯地图携手广州融创乐园打造智慧景区小程序 玩转智慧乐园
6月15日,广州融创文旅城正式开园,其中腾讯地图、腾讯文旅和广州融创文旅城联合打造的智慧景区导览...
日期:06-17
鱼爪网为推进网店转让行业,为易店无忧注资2亿元
2019年6月5日,旗下拥有网店转让服务、知识产权服务、新媒服务、传媒服务、企业服务、互联服务、设...
日期:06-17
四六级考前考后全程陪伴 有道精品课考神团队助力考生“弯道超车”
6月14日,大学英语四、六级考试前夕,大批考生聚集到网易有道旗下的在线教育品牌有道精品课中,等待...
日期:06-15
强网杯:奇安信吴云坤谈网络安全实战化
第三届“强网杯”系列活动于6月15日至16日在郑州举行,奇安信集团总裁吴云坤在“强...
日期:06-15
亲情永不断电,飞利浦手机为爱而生
有多久……没给爸妈打过电话了?一周、两周、一个月、两个月?总是以忙为借口,可是却没...
日期:06-15
访谈线下大数据行业引领者—众盟数据,从资产化到智能化深度赋能实体经济
1996年,美国学者尼葛洛庞帝出版了《数字化生存》一书,按照他的解释,人类生存于一个虚拟的、数字...
日期:06-14
扎根于教育市场,着眼于全局和长远,清大新媒体的场景营销策略
商场如战场,在激烈的市场环境下,清大新媒体能够在场景化传媒界中占有一席之位,稳中求进,想必手...
日期:06-14
互联网女皇报告披露在线广告份额增益四大因素,快手已经拿到了一张王牌
近日,互联网女皇的报告提出推动在线广告份额增益的四大因素。哪一个是最重要的?快手商业化又是如...
日期:06-14
极光大数据:父爱如山,关于你的父亲你了解多少?
值父亲节来临之际,极光大数据(Aurora Mobile, NASDAQ:JG)发布《2019年父亲节专题研究报告》,对已...
日期:06-14
中传动漫社IP小TRY出道,克拉克拉3D虚拟直播新打法
日前,传媒大学动漫社官方虚拟IP小TRY在克拉克拉进行了直播首秀。呆萌的形象和独特的声音获得了大批...
日期:06-14
CoinAll首发Pivot免手续费一周,平台为何赔本赚吆喝?
随着互联网的发展,个体表达和寻求认同的需求与时俱进,协作平台成为获取信息、相互连接的主要方式...
日期:06-13
这位作文零分的同学,欢迎来云创大数据工作!
近日,一则北京前两年的中考“0分作文”再次受到网友的关注。虽然这篇作文被判定“...
日期:06-13