您的位置:首页>>业界动态

中文最佳,哈工大讯飞联合发布全词覆盖中文BERT模型

发布时间:2019-06-25 15:43:21  来源:互联网    背景:

  近日,哈工大讯飞联合实验室发布了基于全词覆盖的中文 BERT 预训练模型,该模型在多个中文数据集上,取得了当前中文预训练模型的最佳水平,部分效果甚至超过了原版 BERT、ERNIE等中文预训练模型。。

  这一新的模型资源,极大地推动了中文自然语言处理的研究发展,弥补了之前该研究模型在中文自然语言处理上的空缺。之前 ERNIE 更多使用百度百科、贴吧等网络数据,它对非正式文本(例如微博等)建模较好,而BERT-wwm使用了中文维基百科(包括简体和繁体)数据进行训练,故此对正式文本建模更有优势,同时BERT-wwm也能更好的处理繁体中文数据,因为 ERNIE 的词表中几乎没有繁体中文,让业界多了一个选择。

  哈工大讯飞联合实验室(HFL)是科大讯飞重点引进和布局的核心研发团队之一,由科大讯飞AI研究院与哈尔滨工业大学社会计算与信息检索研究中心(HIT-SCIR)在2014年共同创办。

  自哈工大讯飞联合实验室成立,双方一直进行着深入地合作,特别是语言认知计算领域,成果显著,研究涉及阅读理解、自动阅卷、类人答题、人机对话、语音识别后处理、社会舆情计算等前瞻课题,相应研究成果应用于司法,教育等领域。哈工大讯飞联合实验室在近几年获得多项世界冠军,其中包括机器阅读理解权威评测SQuAD、SQuAD 2.0,第五届中文语法错误自动诊断大赛CGED,对话型阅读理解评测CoQA、QuAC等。

  此次发布的基于全词覆盖的中文BERT,不仅表明科大讯飞在自然语言处理技术上保持业界领先水平,同时还积极将最新技术转化应用到中文自然语言处理的研究中,与业界一同推进中文自然语言处理的研究与发展,为中文信息处理做出更多贡献。

  AI蓬勃发展,人工智能要求的是不仅要“能听会说”,还要“能理解会思考”,这一技术跨越,需要大量科学研究的支持。深层语义理解、逻辑推理决策、自主学习进化等认知智能的关键技术,都是当下的研究重点。语音合成技术、语音识别技术、手写识别技术、自然语言处理技术、语音测评技术、声纹识别技术,这些技术都展现出了讯飞的超强实力。

  科大讯飞一直将“顶天立地”作为企业的核心使命。“顶天”,即技术顶天,强调技术对AI发展的的重要性。科大讯飞长期对科研保持着高投入,据其2018年财报显示,2018年公司新增相关研发费用4.52亿元,相关研发费用总额达12.63亿元,较上年同期增长55.82%。科研投入可谓相当之大,难怪其技术可以一直保持行业领先了。

  科大讯飞还是目前我国唯一以语音技术为产业化方向的“国家863计划成果产业化基地”、“国家规划布局内重点软件企业”、“国家高技术产业化示范工程”, 曾两次荣获“国家科技进步奖”及中国信息产业自主创新荣誉“信息产业重大技术发明奖”。科技部明确依托科大讯飞建设了认知智能国家重点实验室,这是我国在人工智能高级阶段——认知智能领域的第一个国家级重点实验室。

  领先的技术以及对整个人工智能生态产业的全面把控上,科大讯飞向人们展现出了它的长远眼光。其构建的国内首个以智能语音和人机交互为核心的人工智能开放平台——讯飞开放平台,并基于该平台相继推出讯飞输入法、讯飞听见等示范性应用,推动与广大合作伙伴携手构建以讯飞为中心的人工智能产业生态。其在智能语音和人工智能核心研究和产业化方面的突出成绩,也得到了社会各界和国内外的一致认可,被称为“中国人工智能国家队”。

  对技术的不断追求,对科研的不断精进,对用户的细微关注,是每一个希望大力发展AI的企业都应该学习的,如今的科大讯飞, 仍在以高速不断迈进和发展,我们希望在未来,能够看到科大讯飞一个又一个技术上的突破,引领中国AI技术继续前行。

  附 中文全词覆盖BERT官方资源地址https://github.com/ymcui/Chinese-BERT-wwm

特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。


返回网站首页 本文来源:互联网

本文评论
友情提示:评论功能暂时关闭,请扫描上方二维码进群交流!
自动驾驶:百度五年狂奔,谷歌十年倔强
历史最有趣之处,在于其往往颠覆人们的认知。
  把时间往回拨15年,在20世纪之初的2004年,...
日期:08-21
5G全速进化 iQOO Pro新品手机明日北京发布
明天,也就是8月22日,生而强悍再进化的iQOO Pro将在751D·PARK北京时尚设计广场751新罐正式...
日期:08-21
今年7月,厦门5家小龙坎火锅店正式接入付呗
如果是人生中有什么坎过不去,那一定就是小龙坎。就是ta,把地道的成都风味带向全国各地。
日期:08-21
联想携手极客公园启动「酷公司30」计划  合力助推中小企业成长进化
2019年8月21日,联想集团全球总部未来中心——今日,联想中小企业事业部携手尖端科技媒体...
日期:08-21
Adobe发布Creative Cloud中国摄影计划,助力创意实现
中国,杭州—2019年8月21日— Adobe(Nasdaq: ADBE)今日宣布将于近期在中国大陆地区推出面...
日期:08-21
飞桨端侧推理引擎重磅升级为Paddle Lite,更高扩展性更极致性能!
百度深度学习平台飞桨(PaddlePaddle)再放大招!端侧推理引擎全新升级,重磅发布Paddle Lite,旨在推...
日期:08-21
消息:小米或不能再使用MIX商标
8月21日消息 近日,有网友放出了中国裁决文书网的小米科技有限责任公司和国家知识产权局二审的行政...
日期:08-21
2019北京网络安全大会召开首日 国家会议中心被“挤爆”
8月21日上午,为期三天的2019北京网络安全大会正式拉开帷幕。当天早上,会议举办地点国家会议中心人...
日期:08-21
强强联合!百度智能云与Rancher达成合作,容器生态再进一步
2019年8月21日,技术领先的云计算服务平台百度智能云与全球领先的容器管理软件提供商Rancher Labs正...
日期:08-21
千库4周年品牌视频《招牌“蓝友”在线守护》深度解读
2019年8月19日,千库网正式对外发布了4周年品牌视频《招牌“蓝友”在线守护》,通过三段...
日期:08-21
Mance Harmon:超越区块链,构建快速、公平和安全的去中心化应用程序
2019年8月21日,在北京举办的PoW’er大会上,企业级分布式账本平台Hedera Hashgraph 联合创始人...
日期:08-21
Byte CTF字节跳动网络安全攻防大赛强势来袭
当今,随着网络信息规模的不断发展与壮大,网络系统面临着更多的安全威胁。网络安全是一个关系到国...
日期:08-21
索尼影视官方确认,漫威将不再参与《蜘蛛侠》电影制作
据IGN早些时候报道,由于索尼影业和迪士尼之间无法达成新的协议,所以未来漫威电影宇宙未来不会制作...
日期:08-21
OPPO Reno 2配置曝光:骁龙730G+4000mAh电池
今日,外媒91Mobiles曝光了将于8月28日在印度发布的新机OPPO Reno 2更完整的配置参数。OPPO Reno 2...
日期:08-21
京东云总裁申元庆谈物联网布局:为5G时代领跑超级电商赋能
经济日报-中国经济网讯(记者 王茂林)从2009年,以国家传感网创新示范区成立为标志,无锡正式与物联网结...
日期:08-21
百度智能小程序的“哪吒”效应
又是集中的财报季节,BAT三巨头先后秀出肌肉。
  8月20日,百度发布Q2财报,本季度实现营收2...
日期:08-21
配置相当华丽!小米MIX4系列配置曝光,售价真香
此前有消息称,小米将会在下半年推出一款全新的手机,也就是新一代的MIX系列旗舰产品MIX4。近日,疑...
日期:08-21
西瓜视频创作人:大白话本人,露脸居然没掉粉?
长期隐藏在电影画面和配音之后的影视解说博主,在两三天之内,纷纷从幕后走到前台露脸,用真实长相...
日期:08-21
世界机器人大会正式开幕,普渡送餐机器人引全场观众热情围观
在一段不足十米的通道上,数个路障简单勾画出了一条“S型”的道路,一台机器人行驶到路障...
日期:08-21
乡村民宿助力旅游脱贫,小猪参与海南省乡村民宿示范建设项目
8月20日,海南省首个乡村民宿示范建设项目在海口市美兰区美帖村正式启动,该项目由海南省旅游民宿提...
日期:08-21
  专栏介绍
徐彬 的专栏
徐彬发表的文章
积分:
自我介绍 :