信息无障碍通道
您的位置:首页>>业界动态

中文最佳,哈工大讯飞联合发布全词覆盖中文BERT模型

发布时间:2019-06-25  来源:互联网    背景: 无障碍通道

  近日,哈工大讯飞联合实验室发布了基于全词覆盖的中文 BERT 预训练模型,该模型在多个中文数据集上,取得了当前中文预训练模型的最佳水平,部分效果甚至超过了原版 BERT、ERNIE等中文预训练模型。。

  这一新的模型资源,极大地推动了中文自然语言处理的研究发展,弥补了之前该研究模型在中文自然语言处理上的空缺。之前 ERNIE 更多使用百度百科、贴吧等网络数据,它对非正式文本(例如微博等)建模较好,而BERT-wwm使用了中文维基百科(包括简体和繁体)数据进行训练,故此对正式文本建模更有优势,同时BERT-wwm也能更好的处理繁体中文数据,因为 ERNIE 的词表中几乎没有繁体中文,让业界多了一个选择。

  哈工大讯飞联合实验室(HFL)是科大讯飞重点引进和布局的核心研发团队之一,由科大讯飞AI研究院与哈尔滨工业大学社会计算与信息检索研究中心(HIT-SCIR)在2014年共同创办。

  自哈工大讯飞联合实验室成立,双方一直进行着深入地合作,特别是语言认知计算领域,成果显著,研究涉及阅读理解、自动阅卷、类人答题、人机对话、语音识别后处理、社会舆情计算等前瞻课题,相应研究成果应用于司法,教育等领域。哈工大讯飞联合实验室在近几年获得多项世界冠军,其中包括机器阅读理解权威评测SQuAD、SQuAD 2.0,第五届中文语法错误自动诊断大赛CGED,对话型阅读理解评测CoQA、QuAC等。

  此次发布的基于全词覆盖的中文BERT,不仅表明科大讯飞在自然语言处理技术上保持业界领先水平,同时还积极将最新技术转化应用到中文自然语言处理的研究中,与业界一同推进中文自然语言处理的研究与发展,为中文信息处理做出更多贡献。

  AI蓬勃发展,人工智能要求的是不仅要“能听会说”,还要“能理解会思考”,这一技术跨越,需要大量科学研究的支持。深层语义理解、逻辑推理决策、自主学习进化等认知智能的关键技术,都是当下的研究重点。语音合成技术、语音识别技术、手写识别技术、自然语言处理技术、语音测评技术、声纹识别技术,这些技术都展现出了讯飞的超强实力。

  科大讯飞一直将“顶天立地”作为企业的核心使命。“顶天”,即技术顶天,强调技术对AI发展的的重要性。科大讯飞长期对科研保持着高投入,据其2018年财报显示,2018年公司新增相关研发费用4.52亿元,相关研发费用总额达12.63亿元,较上年同期增长55.82%。科研投入可谓相当之大,难怪其技术可以一直保持行业领先了。

  科大讯飞还是目前我国唯一以语音技术为产业化方向的“国家863计划成果产业化基地”、“国家规划布局内重点软件企业”、“国家高技术产业化示范工程”, 曾两次荣获“国家科技进步奖”及中国信息产业自主创新荣誉“信息产业重大技术发明奖”。科技部明确依托科大讯飞建设了认知智能国家重点实验室,这是我国在人工智能高级阶段——认知智能领域的第一个国家级重点实验室。

  领先的技术以及对整个人工智能生态产业的全面把控上,科大讯飞向人们展现出了它的长远眼光。其构建的国内首个以智能语音和人机交互为核心的人工智能开放平台——讯飞开放平台,并基于该平台相继推出讯飞输入法、讯飞听见等示范性应用,推动与广大合作伙伴携手构建以讯飞为中心的人工智能产业生态。其在智能语音和人工智能核心研究和产业化方面的突出成绩,也得到了社会各界和国内外的一致认可,被称为“中国人工智能国家队”。

  对技术的不断追求,对科研的不断精进,对用户的细微关注,是每一个希望大力发展AI的企业都应该学习的,如今的科大讯飞, 仍在以高速不断迈进和发展,我们希望在未来,能够看到科大讯飞一个又一个技术上的突破,引领中国AI技术继续前行。

  附 中文全词覆盖BERT官方资源地址https://github.com/ymcui/Chinese-BERT-wwm

特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。


返回网站首页 本文来源:互联网

本文评论
《三十而已》许幻山是时间管理达人?别闹,顾佳才真的大师
最近,在即将迎来大结局的热播剧《三十而已》中,女强人顾佳可谓圈粉无数。辅助丈夫开公司、自己办...
日期:08-07
中芯国际大幅提高今年资本开支计划,用于产能扩充
8 月 7 日消息,据外媒报道,中芯国际日前宣布,大幅提高今年资本开支计划。
日期:08-07
技嘉发布G242-Z11高性能计算服务器新品
技嘉今日发布了基于 AMD 双路霄龙(Epyc)Rome 处理器 + 四路英伟达 Ampere A100 GPU 的 G242-Z11 ...
日期:08-07
除了 13 座晶圆厂,台积电旗下还有 4 座先进芯片封测工厂
8 月 7 日消息,据国外媒体报道,为苹果等公司代工芯片的台积电,近几年在芯片制程工艺方面走在行业...
日期:08-07
NFC下放 Redmi 9C NFC版将登陆欧洲:1060元
8月7日消息,据外媒报道,小米即将在欧洲市场推出NFC版Redmi 9C,它和Redmi 9C的区别在于前者支持NF...
日期:08-07
定了 华为确认:9月发布新旗舰机 还是麒麟芯片
在中国信息化百人会2020年峰会上,华为消费者业务CEO余承东表示,今年9月份将发布新一代旗舰机,将...
日期:08-07
三星Galaxy Book Flex 5G变形本商标申请曝光
本周早些时候,三星在 Unpacked 2020 发布会上揭晓了一系列新品,包括 Galaxy Note 20 系列智能机、...
日期:08-07
骁龙860、骁龙875 Lite双双曝光:次旗舰5G
这一年的移动SoC处理器,无论高通、华为还是联发科、三星,产品都越来越丰富,产品线也是越来越复杂...
日期:08-07
小米10/Redmi K30超大杯来了 市场部总经理:拿出来会让米粉尖叫
8月7日消息,小米中国区市场部总经理@姚亮Frish为小米新品发布会预热。
日期:08-07
英特尔 Xe 独显参数曝光:768 流处理器 @1.65GHz,3GB 显存
8 月 7 日消息 英特尔即将推出新款的 11 代酷睿低压处理器和 DG1 独显。根据目前的爆料信息,11 代...
日期:08-07
苹果 iPhone 新专利:如何减少视频文件体积、节省电量
8 月 7 日消息,据外媒报道,苹果曝光的最新专利显示,该公司已经找到减少 iPhone 视频文件体积、节...
日期:08-07
小米在印度推出全新MIUI系统 不预装任何被禁的应用
印度近期宣布禁止包括小米、百度等中国公司推出的应用程序,小米发布声明称,它已经在遵守当地政府...
日期:08-07
苹果 Apple Watch「全民健身日挑战」将于明日限时开启
为了纪念北京奥运会成功举办,经相关部门批准,从 2009 年起,每年 8 月 8 日为「全民健身日」,鼓...
日期:08-07
中端市场受压严重?高通可能要推骁龙 860 芯片
骁龙 865 Plus 是高通公司最新的旗舰处理器,而预计下一代旗舰骁龙 875 处理器将在今年年底发布,它...
日期:08-07
拼多多与天津达成战略合作,上线首个直辖市优品馆
8 月 7 日消息,近日,天津市与新电商平台拼多多达成全面战略合作,同时上线启动 “天津优品馆...
日期:08-07
BCS冬奥主题活动日:奥运网络安全成全球关注焦点
北京冬奥会与奇安信联合标识揭牌
  8月7日,北京2022年冬奥会和冬残奥会倒计时500天前夕,2020年...
日期:08-07
谷歌将改变应用评价系统,不用再跳转至应用商店
8 月 7 日消息 据 Android 开发者博客上的消息,谷歌将对 Android 应用引入应用内评价 API,让用户...
日期:08-07
金融行业统一监控之运维数据治理
数智时代,数据是金融机构经营的核心资产和最重要战略资源,也是不可或缺的生产要素。只有更好的管...
日期:08-07
Trax货架数据帮助零售企业完善品类组合
对于零售业而言,选取正确的商品组合对零售成功至关重要。以空间和销量为基础,拥有解读门店状况的...
日期:08-07
小米回应应用被印度禁用
(原标题:小米回应应用被印度禁用:正了解事态进展,将采取适当措施)
日期:08-07
  专栏介绍
徐彬 的专栏
徐彬发表的文章
积分:
自我介绍 :