您的位置:首页>>互联网

BERT和ERNIE谁更强?这里有一份4大场景的细致评测

发布时间:2019-06-17 18:35:11  来源:互联网    背景:

  BERT和ERNIE,NLP领域近来最受关注的2大模型究竟怎么样?刚刚有人实测比拼了一下,结果在中文语言环境下,结果令人意外又惊喜。具体详情究竟如何?不妨一起围观下这篇技术评测。

  1.  写在前面

  随着2018年ELMo、BERT等模型的发布,NLP领域终于进入了“大力出奇迹”的时代。采用大规模语料上进行无监督预训练的深层模型,在下游任务数据上微调一下,即可达到很好的效果。曾经需要反复调参、精心设计结构的任务,现在只需简单地使用更大的预训练数据、更深层的模型便可解决。

  随后在2019年上半年,百度的开源深度学习平台PaddlePaddle发布了知识增强的预训练模型ERNIE,ERNIE通过海量数据建模词、实体及实体关系。相较于BERT学习原始语言信号,ERNIE直接对先验语义知识单元进行建模,增强了模型语义表示能力。

  简单来说,百度ERNIE采用的Masked Language Model是一种带有先验知识Mask机制。可以在下图中看到,如果采用BERT随机mask,则根据后缀“龙江”即可轻易预测出“黑”字。引入了词、实体mask之后,“黑龙江”作为一个整体被mask掉了,因此模型不得不从更长距离的依赖(“冰雪文化名城”)中学习相关性。

 

  除此之外,百度ERNIE还引入了DLM(对话语言模型)任务,通过这种方式来学习相同回复对应的query之间的语义相似性。实验证明DLM的引入对LCQMC(文本相似度计算)系列任务带来了较大的帮助。最终ERNIE采用多源训练数据,利用高性能分布式深度学习平台PaddlePaddle完成预训练。

  2.  亲测

  到底百度ERNIE模型所引入训练机制有没有起到作用,只有实践了以后才知道。为此,我亲自跑了BERT和ERNIE两个模型,在下面的几个场景中得到了预测结果。

  2.1  完形填空

  完形填空任务与预训练时ERNIE引入的知识先验Mask LM任务十分相似。从下图的比较中我们可以看到,ERNIE对实体词的建模更加清晰,对实体名词的预测比BERT更准确。例如BERT答案“周家人”融合了相似词语“周润发”和“家人”结果不够清晰;“市关村”不是一个已知实体;“菜菜”的词边界是不完整的。ERNIE的答案则能够准确命中空缺实体。

 

  2.2 NER ( 命名 识别 )

  在同样为token粒度的NER任务中,知识先验Mask LM也带来了显著的效果。对比MSRA-NER数据集上的F1 score表现,ERNIE与BERT分别为93.8%、92.6%。在PaddleNLP的LAC数据集上,ERNIE也取得了更好的成绩,测试集F1为92.0%,比BERT的结果90.3%提升了1.7%。分析二者在MSRA-NER测试数据中二者的预测结果。可以观察到:

  1.)ERNIE对实体理解更加准确:“汉白玉”不是实体类型分类错误;

  2.)ERNIE对实体边界的建模更加清晰:“美国法律所”词边界不完整,而“北大”、“清华”分别是两个机构。

  Case对比:摘自MSRA-NER数据测试集中的三段句子。B_LOC/I_LOC为地点实体的标签,B_ORG/L_ORG为机构实体的标签,O为无实体类别标签。下表分别展现了 ERNIE、BERT模型在每个字上的标注结果。

 

 

 

  2.3  相似度

  ERNIE在训练中引入的DLM能有效地提升模型对文本相似度的建模能力。因此,我们比较文本相似度任务LCQMC数据集上二者的表现。从下表的预测结果可以看出,ERNIE学习到了中文复杂的语序变化。最终ERNIE与BERT在该任务数据的预测准确率为87.4%、87.0%.

 

  2.4 

 

  最后,比较应用最广泛的情感分类任务。经过预训练的ERNIE能够捕捉更加细微的语义区别,这些句子通常含有较委婉的表达方式。下面展示了PaddleNLP情感分类测试集上ERNIE与BERT的打分表现:在句式“不是很…”中含有转折关系,ERNIE能够很好理解这种关系,将结果预测为“消极”。在ChnSentiCorp情感分类测试集上finetune后ERNIE的预测准确率为95.4%,高于BERT的准确率(94.3%)。

  从以上数据我们可以看到,ERNIE在大部分任务上都有不俗的表现。尤其是在序列标注、完形填空等词粒度任务上,ERNIE的表现尤为突出,一点都不输给Google的BERT。

特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。


返回网站首页 本文来源:互联网

本文评论
百度【智能小程序开发者抗疫联盟】全面扩招,优秀开发者最高可获得奖励150万元!
疫情之下,人们衣食住行的各个方面均受到不同程度的影响。抗击疫情由此成为一场全面、长期的全民战...
日期:02-25
武汉嫂子,菜来了……本来生活@你
前两天,一位#武汉嫂子#教科书式怒怼的视频火了。
日期:02-25
vivo天猫超级品牌日重磅来袭,iQOO3抢先买!
2月25日,iQOO在年后首场发布会上正式推出了年度旗舰iQOO 3,并且将于3月2日全网正式开售。
日期:02-25
员工在家办公毁掉公司数据,微盟公司市值一天蒸发 9 亿港元
2月25日消息,港股上市公司微盟集团今日在港交所公告称,SAAS业务数据遭到一名员工“人为破坏&...
日期:02-25
家用投影仪怎么选?性价比颇高的当贝投影D1怎么样?
随着时代的发展,虽然电视也在不断地进步发展,完成了传统电视到智能电视的转变,但是电视一直存在的一...
日期:02-25
探营北京市朝阳区集中隔离点:24小时值守 机器人送餐
“您好,您的餐食在第一层,请取餐。”2月25日中午,位于北京市朝阳区的某集中医学隔离点...
日期:02-25
华为、苹果、OPPO、vivo 等全面响应苏宁24期免息
2月24日晚,苏宁易购召开线上发布会,宣布27日起,将联合家电、家装、3C等品类品牌,全场景推出&ldq...
日期:02-25
全友、顾家家居、喜临门等全面响应苏宁24期免息
2月24日,包括喜临门、雅兰床垫、全友、顾家家居、鹰牌陶瓷、多乐士、三棵树、万家乐、万和、箭牌、...
日期:02-25
智齿客服赋能5大行业,用AI筑起防疫长城
武汉封城,各地戒严,疫情让全国人民进入紧急状态,尤其是政府、医疗等处在防疫战场最前线的行业。智齿...
日期:02-25
“宅经济”、“无接触服务”兴起,苏宁智慧零售玩转消费新方式
受新冠肺炎疫情的影响,“宅”成为了当下全国居民生活最普遍的生活状态。“宅经济&r...
日期:02-25
华为云携手五所高校,启动鲲鹏计算HCIA在线课程
2月24日,全国首个鲲鹏计算HCIA在线孵化营在成都正式启动。本次孵化营由天府新区成都管委会、华为公...
日期:02-25
英超大咖聚首为中国加油,背后原来是PP体育的硬核操作
疫情阻碍了人们的正常出行,但无法削减足球带来的精彩和温情。近日,英超官方特意为中国球迷录制助威...
日期:02-25
远程办公时期,这些公司为什么都选择了飞书?
自从企业开启远程办公模式以来,这段时间,网上有关钉钉、飞书、企业微信的热议不断。不少网友发出...
日期:02-25
Skullcandy推出“热情粉“限量套装,带你遵循内心的声音
历时十一个月,每月一种配色、一位合作音乐人与运动员、一套限定耳机套装,Skullcandy的12 Moods企...
日期:02-25
苏宁推24期免息,苹果华为联想等3C大牌响应
2月24日晚,苏宁易购召开线上直播发布会,侯恩龙宣布自2月27日开始,苏宁将全面联合家电、家装、手...
日期:02-25
首批“无接触”餐厅落地 餐饮业试水送餐机器人自主配送
近日,全国各地陆续迎来返工潮,如何放心吃饭成了许多人关心的新话题。为了尽可能满足疫情期间消费...
日期:02-25
Tmall China Cool时装秀再现 天猫国潮来了传递中国品牌时尚态度
国潮崛起正在成为中国时尚的代名词,除了常驻时装周的华人设计师品牌数量逐年上升,越来越多的中国...
日期:02-25
华云数据安超云一体机为协和武汉红十字会医院提供云助力
新型冠状病毒肺炎疫情发生以来,全国上下齐心战疫,科技企业也积极投身疫情防控主战场,不仅持续为...
日期:02-25
苏宁与美的、华为、苹果等家电3C品牌“云签约”
“2月27日起,苏宁将全面联合家电、家装、电脑、手机等品类品牌,线上线下推出‘购家电家...
日期:02-25
极光:城市居民置业图鉴2020
极光(Aurora Mobile, NASDAQ:JG)发布《城市居民置业图鉴2020》,回顾2019年全国房市表现,洞悉城市...
日期:02-25
  专栏介绍
张玉翠 的专栏
张玉翠发表的文章
积分:
自我介绍 :