滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

自然语言处理“桥头堡”百度与一线技术专家齐聚AI ProCon ERNIE超“吸睛”

时间：2019-09-10 10:51:26 来源：互联网编辑：星辉 IP：北京 发表评论无障碍通道

北京虽已入秋，但依旧迎来AI的一股热浪。风靡自然语言处理领域的“网红”预训练模型百度ERNIE再次现身“极客盛宴”，引发行业广泛关注。

9月5日，CSDN主办的为期三天的 2019 AI开发者大会(AI ProCon)在北京拉开序幕。大会聚集国内外如百度、华为、Google微软等40多知名科技公司，60位一线技术专家，深入聚焦技术与应用，阐述产业变革。7日下午自然语言处理论坛中，百度NLP主任研发架构师孙宇从自然语言处理的关键难点语义表示技术切入，为到场开发者解析了中英文任务超越谷歌BERT的百度语义理解框架ERNIE。

$C:\Users\XINYAN~1.HUA\AppData\Local\Temp\1568019207(1).png$

语言表示是解决自然语言理解的首要问题，语言表示的好坏一定程度决定了计算机处理自然语言的效果。基于此，百度在今年3月首次提出知识增强的语义表示模型ERNIE(Enhanced Representation from kNowledge IntEgration)，它在中文NLP任务上表现非凡，百度在多个公开的中文数据集上进行了效果验证，在语言推断、语义相似度、命名实体识别、情感分析、问答匹配等自然语言处理各类任务上，超越了谷歌的语义表示模型BERT的效果。

ERNIE模型通过建模海量数据中的实体概念等先验语义知识，学习真实世界的语义关系。具体来说，百度ERNIE模型通过对词、实体等语义单元的掩码，使得模型学习完整概念的语义表示。相较于 BERT 学习原始语言信号，ERNIE 直接对先验语义知识单元进行建模，增强了模型语义表示能力。

例如：

Learned by BERT：哈 [mask] 滨是 [mask] 龙江的省会，[mask] 际冰 [mask] 文化名城。

Learned by ERNIE：[mask] [mask] [mask] 是黑龙江的省会，国际 [mask] [mask] 文化名城。

$C:\Users\XINYAN~1.HUA\AppData\Local\Temp\1567728556(1).png$

在 BERT 模型中，通过『哈』与『滨』的局部共现，即可判断出『尔』字，模型没有学习『哈尔滨』本身的任何知识。而ERNIE通过学习词与实体的表达，使模型能够建模出『哈尔滨』与『黑龙江』的关系，学到『哈尔滨』是『黑龙江』的省会以及『哈尔滨』是个冰雪城市。

会上，孙宇还用几道趣味填空题验证了ERNIE的知识学习能力。实验将段落中的实体知识去掉，让模型推理其答案。不难看出，ERNIE在基于上下文知识推理能力上表现的更加出色。

$C:\Users\XINYAN~1.HUA\AppData\Local\Temp\1567728618(1).png$

ERNIE在自然语言处理领域前进的脚步从未停歇。沉淀短短几个月，升级后的ERNIE于8月正式推出。百度发布的持续学习的语义理解框架ERNIE 2.0在1.0版本中文任务全面超越BERT的基础上，英文任务取得了全新突破，在共计16个中英文任务上超越了BERT和XLNet, 取得了SOTA效果。

孙宇指出，以BERT、XLNet为代表的无监督预训练技术在语言推断、语义相似度、命名实体识别、情感分析等多个自然语言处理任务上在近两年取得了技术突破。基于大规模数据的无监督预训练技术在自然语言处理领域变得至关重要。百度发现，之前的工作主要通过词或句子的共现信号，构建语言模型任务进行模型预训练。例如，BERT通过掩码语言模型和下一句预测任务进行预训练。XLNet构建了全排列的语言模型，并通过自回归的方式进行预训练。

然而，除了语言共现信息之外，语料中还包含词法、语法、语义等更多有价值的信息。例如，人名、地名、机构名等词语概念知识，句子间顺序和距离关系等结构知识，文本语义相似度和语言逻辑关系等语义知识。如果能持续地学习各类任务，模型的效果将会将入一个全新的阶段。

$C:\Users\XINYAN~1.HUA\AppData\Local\Temp\1567728771(1).png$

基于此，百度提出可持续学习语义理解框架ERNIE 2.0。该框架支持增量引入词汇(lexical)、语法 (syntactic) 、语义 (semantic) 等3个层次的自定义预训练任务，能够全面捕捉训练语料中的词法、语法、语义等潜在信息。这些任务通过多任务学习对模型进行训练更新，每当引入新任务时，该框架可在学习该任务的同时，不遗忘之前学到过的信息。这也意味着，该框架可以通过持续构建训练包含词法、句法、语义等预训练任务，持续提升模型效果。

$C:\Users\XINYAN~1.HUA\AppData\Local\Temp\1568017173(1).png$

依托该框架，百度充分借助飞桨(PaddlePaddle)多机分布式训练优势，利用 79亿tokens训练数据(约1/4的XLNet数据)和64张V100 (约1/8的XLNet硬件算力)训练的ERNIE 2.0预训练模型不仅实现了SOTA效果，而且为开发人员定制自己的NLP模型提供了方案。目前，百度开源了ERNIE 2.0的fine-tuning代码和英文预训练模型。

百度研究团队分别比较了中英文环境上的模型效果。英文上，ERNIE 2.0在自然语言理解数据集GLUE的7个任务上击败了BERT和XLNet。中文上，在包括阅读理解、情感分析、问答等不同类型的9个数据集上超越了BERT并刷新了SOTA。

如今，百度已在自然语言处理领域积累十余年，ERNIE的诞生除了在学术领域的价值，也具备相当重要的产业价值，尤其是在目前国际贸易与科技背景下，拥有与谷歌比肩的语义理解框架意义非凡。ERNIE可以说是百度在自然语言处理方面的重要里程碑，未来百度还将持续深耕该领域，搭起人类与机器“畅所欲言”的沟通桥梁。

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

百度广告收入下半年或承压，花旗下调其核心营业利润预期

花旗分析师在报告中表示，在百度快速提升AI搜索能力和广告支出情绪持续低迷的情况下，广告收入对业绩的拖累可能超出预期。百度2025年一季度核心收入为255亿元，同比增长7%。今年一季度，萝卜快跑在全球提供超1…

07-21

马斯克新动向：专为儿童打造的AI应用“Baby Grok”即将面世

07-21

逐际动力获京东战略投资，加速人形机器人量产，2025下半年正式开售

07-21

华为新专利：创新技术助力扩散模型训练成本大降

07-21

科蓝软件武汉新设智算科技公司，注册资本高达千万级

07-21

虚拟偶像引领社交新风潮，AI企业数量激增再创新纪录

07-21

OpenAI豪掷5000亿布局AI新基建，2025年前将上线百万GPU加速技术革新

07-21

京东领投三家机器人企业，加速布局具身智能引领供应链革命

07-21

火山引擎“奇美拉”数字人平台封测中，字节跳动AI布局再提速

07-21

优必选携手伙伴共创新，锦程智行智能技术公司注册资本达千万

07-21

百度布局AI领域，申请注册“AI同传”商标引关注

07-21

荆门市成立低空产业投资公司，注册资本达1亿元

07-21

中国网民破11亿，2024年AI产业增速迅猛，规模超7000亿

07-21

砺算科技首发6nm自研GPU G100，性能直追英伟达RTX 4060系列

07-21

蚂蚁集团AQ应用iOS版大热，或与Apple Watch携手深化AI健康服务

07-21

点击查看更多 +

全站最新

小米汽车与特斯拉“神似”照片引热议，摄影师澄清拍摄经过

电动车贬值榜：特斯拉领跌，二手市场电车价值缩水明显

奔驰应对豪车税调整：限时全额承担新增消费税，力保销量稳定

特斯拉马斯克预告：即将上演“史诗级”新品演示，引发热烈猜想

智界R9全尺寸豪华SUV谍照抢先看，11月正式发布面临市场考验

京东战略加持，逐际动力推进人形机器人量产与生态协同

热门内容

本栏最新

百度广告收入下半年或承压，花旗下调其核心营业利润预期

华为新专利：创新技术助力扩散模型训练成本大降

科蓝软件武汉新设智算科技公司，注册资本高达千万级

虚拟偶像引领社交新风潮，AI企业数量激增再创新纪录

优必选携手伙伴共创新，锦程智行智能技术公司注册资本达千万

百度布局AI领域，申请注册“AI同传”商标引关注

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.