您的位置:首页>>业界动态

自然语言处理前沿论坛在京召开 学者专家共探机器之读、写、说、译

发布时间:2019-05-29 15:00:29  来源:互联网    背景:

  5月26日,由百度与中国计算机学会中文信息技术专委会、中国中文信息学会青工委联合举办的“2019自然语言处理前沿论坛”正式召开。本届论坛主题为“机器之‘读、写、说、译’—— 探寻NLP未来之路”。论坛围绕语义计算、自动问答、语言生成、人机对话及机器翻译五大议题,与学术界、工业界一线青年专家学者共同探讨NLP领域的最新技术进展、产业应用及发展趋势。

C:\Users\lingmiao.yan\AppData\Local\Temp\WeChat Files\efdca68a209d76a4764831299889c0d.jpg

  语义计算

  语义计算方面,学者专家围绕词向量、稀疏化深度学习、表示学习等方向进行分享。

  哈尔滨工业大学计算机科学与技术学院教授车万翔以“从‘静态’到‘动态’词向量”为题发表演讲。词向量的引入开启了深度学习应用于自然语言处理的时代。相比于静态词向量,动态词向量可以根据上下文,更好地处理一词多义现象,大幅提高自然语言处理多个任务的准确率。车万翔介绍了研究组基于动态词向量开展的相关工作,包括跨语言动态词向量[1]、few-shot learning、轻量级动态词向量模型等。关于未来的研究方向,车万翔认为可以挖掘更多的“伪数据”训练词向量模型,同时进一步降低模型的复杂度、提升模型速度。

  北京大学信息科学技术学院研究员、长聘副教授孙栩的演讲主题为“Recent Studies on Sparse Deep Learning for Natural Language Processing”。 孙栩表示,当前深度学习多是密集型深度学习,需要更新所有神经元,这对能量消耗非常大。孙栩聚焦在稀疏化的深度学习NLP,提出一个简单有效的算法meProp[2]来简化训练及训练出的神经网络。在反向传递算法中,找出梯度中最重要的信息,仅用全梯度的一小部分子集来更新模型参数。实验表明,在多个任务上5%左右的稀疏化程度就可以达到很好的效果。此外,还提出了带记忆的meProp,具有更好的稳定性,达到更好的反向传递。在进一步的自然语言处理任务中,可以把模型裁剪为原来的1/10左右[3],而保持效果基本不变。

  复旦大学计算机科学技术学院副教授邱锡鹏主要介绍了NLP中的表示学习进展。目前全连接自注意力模型在自然语言处理领域取得广泛成功。模型层面,他分析和对比了CNN、RNN、Transformer的基本原理和优缺点,还介绍了如何设计模型,以更好地融合局部和非局部的语义矩阵关系。邱锡鹏介绍了研究组最新提出的star-transformer模型[4],通过引入中间节点,大幅降低了模型复杂度。学习层面,通过预训练模型以及知识增强(比如ELMo、BERT、GPT、ERNIE等)提高模型泛化能力,在自然语言任务上获得了更好的性能。邱锡鹏认为,未来可以进一步探索如何更好地融合先验知识,构建更灵活、兼容性更强的预训练框架。

  百度NLP主任研发架构师、语义计算技术负责人孙宇介绍了百度语义计算技术发展脉络及研发现状,并分享了该技术在百度各产品中的应用情况。据介绍,百度语义计算着力研究如何利用计算机对人类语言的语义进行表示、分析和计算,使机器具备语义理解能力。研发了包括语义表示ERNIE[5]、语义匹配SimNet、语义解析、多模态语义计算在内的多项领先语义技术。语义匹配方面,百度提出了一种基于增强学习的语义匹配框架,有效解决长文本匹配问题。在语义表示方面,今年3月,提出知识增强的语义表示模型 ERNIE,并发布了基于 PaddlePaddle 的开源代码与模型[6]。相较于BERT学习原始语言信号,ERNIE 直接对先验语义知识单元进行建模,增强了模型语义表示能力,在多项中文自然语言处理任务上取得最好的效果。

  自动问答

  中国科学院自动化研究所模式识别国家重点实验室副研究员刘康结合研究组近年的工作[7][8],介绍了文本阅读理解的研究进展与挑战。刘康首先介绍了阅读理解的主要任务、基本原理和数据集。在研究进展方面,介绍了基于深度学习的阅读理解模型框架、注意力机制、基于上下文的编码模型,以及预训练模型等。同时,他强调,阅读理解面临一系列的挑战,如合理构建数据集、如何提升模型推理能力、如何更好地使用外部知识等。在未来工作方面,刘康认为阅读理解经过了数据驱动模型的阶段,现在学术界开始逐步研究如何利用知识图谱提升机器阅读理解效果。在未来,如何更好地表示和应用知识,是非常值得研究的,也有很长的路要走。

  百度NLP资深研发工程师、阅读理解与问答技术负责人刘璟介绍了百度机器阅读理解技术。百度的研究内容主要包含多文档阅读理解模型V-NET[9],以及知识表示和文本表示融合模型KT-NET[10]。其中,V-NET模型在MSMARCO数据集上三次获得第一。KT-NET目前是常识推理阅读理解数据集ReCoRD榜单上排名第一的模型。除了在技术方面不断投入,百度在去年对外发布了面向搜索场景的阅读理解数据集DuReader 2.0[11],数据规模包含30万问题、150万文档和66万人工标注的答案。百度、中国计算机学会和中文信息学会连续两年举办了基于DuReader数据集的机器阅读理解评测,推动了中文阅读理解技术的进步。

  语言生成

  自然语言生成技术研究如何让机器能像人一样使用自然语言进行表达和创作。机器表达、写作的能力既是衡量机器智能水平的重要标准,同时也具有广阔的应用前景。

  北京大学计算机科学技术研究所教授万小军总结了自然语言生成技术的研究现状,并介绍了可控自然语言生成与跨模态语言生成等方面的研究进展。万小军分享了自然语言生成的发展趋势,包括受控语言生成[12]、文本保真度[13]、问题生成、生成带特定属性的文本,以及跨模态生成[14]等,同时也展示了多模态作诗系统。万小军还指出,自然语言生成目前面临两大挑战,首先是自动准确的生成文本质量评估,其次是基于少量平行数据的语言生成。如果这两大问题解决了,将极大地推动自然语言生成技术的发展。

  百度NLP主任研发架构师、篇章理解与语言生成技术负责人肖欣延主要分享了百度在自然语言生成方面的技术进展,以及技术如何助力媒体进行智能创作。据介绍,百度研发了基于宏观规划、微观规划、表层实现的篇章生成算法,同时提出基于规划、信息选择、层次化等多种创新神经网络生成算法,在数据到文本生成、摘要生成、诗歌生成[15]等任务上取得良好效果。目前,百度已将语言生成技术应用于百家号内容创作、语音播报等。值得一提的是,百度还推出了智能写作平台[16],通过提供自动写作和辅助写作能力,提升内容创作的效率和质量,为智能创作领域提供更多可能。

  人机对话

  人机语音交互是一个发展趋势,对话将成为未来人与智能设备交互的主流形式。 “人机对话”专题探讨了对话的研究进展与应用。

  清华大学计算机系副教授黄民烈发表了“对话系统中的强语义、弱语义和未来趋势”主题演讲。他表示,经典的对话系统大多采用了强语义方法,例如Frame、slot-filling等;现代神经网络方法则发展了弱语义方法,完全基于数据驱动和概率统计。前者在实际应用中表现良好,后者则存在严重的可控性问题。结合研究组工作,介绍了开放域对话系统面临的挑战[17],更好的融合知识[18]等。黄民烈表示,当下在强语义和弱语义方法间找一个结合点,希望能把数据驱动的模型和知识结合起来。

  百度NLP主任研发架构师、UNIT技术负责人孙珂结合智能对话技术产业应用实践,探讨了产品架构、关键技术以及对现存问题的思考。围绕近期百度发布的智能对话系统训练与服务平台UNIT3.0[19],孙珂介绍了任务型、问答型、闲聊型三种在工业界较为成熟的对话系统。此外,为了适应全面丰富的NLP任务,方便更多开发者灵活插拔尝试多种网络结构,并且让应用最快速达到工业级效果,百度还开源了基于PaddlePaddle的工业级中文NLP工具与预训练模型集PaddleNLP[20]。

  机器翻译

  机器翻译研究如何利用计算机实现人类语言之间的自动翻译。基于深度学习的机器翻译方法利用神经网络直接实现语言之间的自动翻译,目前已取代传统的统计机器翻译,成为学术界和工业界新的主流方法。

  清华大学计算机系长聘副教授刘洋介绍了神经网络机器翻译的基本原理、重要挑战以及最新研究进展。近年来,随着深度学习技术的发展,机器翻译的质量迈上了一个新的台阶。但是神经网络翻译模型仍然面临一系列重要挑战,例如:现有模型都是基于双语平行语料进行学习的,缺乏先验知识的融合;神经网络模型就像一个黑盒子,缺乏可解释性,难以调试和分析;模型对训练数据敏感、鲁棒性较差。针对以上挑战,刘洋结合研究组工作,介绍了他们在知识驱动[21]、可视化和可解释性[22]、鲁棒性神经网络机器翻译[23]方面的最新进展。谈及未来工作,刘洋认为,基于规则的翻译模型需要设计规则,统计机器翻译需要设计特征,神经网络机器翻译需要设计架构,未来是否能让机器自动设计神经网络架构,是一个非常有价值的研究方向。

  机器同传近年来成为人工智能领域一个前沿研究方向。百度人工智能技术委员会主席何中军详细介绍了机器同传面临的主要技术挑战,并结合百度在机器同传上的一系列技术创新介绍了该方向的前沿进展。值得一提的是,何中军的全场报告采用了百度翻译最新研发的AI同传小程序进行端到端的语音翻译,只需要手机扫描会议二维码,就可以实时收听到翻译后的语音。新产品集成了百度在机器同传上的最新技术,如噪声容错、自动断句、可控时延[24]、篇章翻译[25]、端到端翻译[26]等。针对目前的挑战,何中军也指出机器同传未来的三个发展方向:模型方面,研发更加鲁棒的同传模型;数据方面,建设大规模、高质量同传数据;评价方面,研究和建立面向同传的评价体系和评价标准。

  这场学术界与工业界携手带来的深度交流会干货颇多,让与会者收获满满。自然语言处理是人工智能皇冠上的明珠。当学术界、工业界更紧密地交流合作,越来越深入地理解自然语言、掌握知识,必将共同推动人工智能发挥更大的价值。

  [1] Jiang Guo, Wanxiang Che, David Yarowsky, Haifeng Wang, Ting Liu. Cross-lingual Dependency Parsing Based on Distributed Representations. In Proceedings of the 53nd Annual Meeting of the Association for Computational Linguistics (ACL). 2015.07. Beijing, China

  [2] Xu Sun, Xuancheng Ren, Shuming Ma, Houfeng Wang. meProp: Sparsified Back Propagation for Accelerated Deep Learning with Reduced Overfitting. In Proceedings of the 34th International Conference on Machine Learning. 2015. Sydney, Australia

  [3] Xu Sun, Xuancheng Ren, Shuming Ma, Bingzhen Wei, Wei Li, Jingjing Xu, Houfeng Wang, Yi Zhang. Training Simplification and Model Simplification for Deep Learning: A Minimal Effort Back Propagation Method. IEEE Transactions on Knowledge and Data Engineering (TKDE) 2019

  [4] Qipeng Guo, Xipeng Qiu, Pengfei Liu, Yunfan Shao, Xiangyang Xue, Zheng Zhang. Star-Transformer. https://arxiv.org/abs/1902.09113

  [5] Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Xuyi Chen, Han Zhang, Xin Tian, Danxiang Zhu, Hao Tian, Hua Wu. ERNIE: Enhanced Representation through Knowledge Integration. https://arxiv.org/abs/1904.09223

  [6] https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE

  [7] Shizhu He, Kang Liu and Weiting An, Learning to Align Question and Answer Utterances in Customer Service Conversation with Recurrent Pointer Networks, in Proceedings of AAAI 2019, Honolulu, Hawaii, USA, January 27 - February

  [8] Cao Liu, Shizhu He, Kang Liu and Jun Zhao, Curriculum Learning for Natural Answer Generation, in Proceedings of IJCAI-ECAI 2018, Stockholm, Sweden, July 13-19.

  [9]Yizhong Wang, Kai Liu, Jing Liu, Wei He, Yajuan Lyu, Hua Wu, Sujian Li and Haifeng Wang. Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification. In ACL-2018.

  [10] An Yang, Quan Wang, Jing Liu, KAI LIU, Yajuan Lyu, Hua Wu, Qiaoqiao She, Sujian Li,Enhancing Pre-trained Language Representations with Rich Knowledge for Machine Reading Comprehension. ACL-2019

  [11] http://ai.baidu.com/broad/subordinate?dataset=dureader

  [12] Zhiwei Yu and Jiwei Tan and Xiaojun Wan. A Neural Approach to Pun Generation. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. 2018. Melbourne, Australia.

  [13] Liunian Li and Xiaojun Wan. Point Precisely: Towards Ensuring the Precision of Data in Generated Texts Using Delayed Copy Mechanism. COLING-2018.

  [14] Lixin Liu, Xiaojun Wan and Zongming Guo. Images2Poem: Generating Chinese Poetry From Image Streams.2018. In ACM Multimedia Conference.

  [15] Zhe Wang, Wei He, Hua Wu, Haiyang Wu, Wei Li, Haifeng Wang, Enhong Chen. 2016. Chinese poetry generation with planning based neural network. In COLING 2016

  [16] http://ai.baidu.com/tech/intelligentwriting

  [17] Huang, Minlie, Xiaoyan Zhu, and Jianfeng Gao. "Challenges in Building Intelligent Open-domain Dialog Systems." arXiv preprint arXiv:1905.05709 (2019).

  [18] Hao Zhou, Tom Young, Minlie Huang, Haizhou Zhao, Jingfang Xu, Xiaoyan Zhu. Commonsense Knowledge Aware Conversation Generation with Graph Attention. IJCAI-ECAI 2018

  [19] https://ai.baidu.com/unit/home

  [20] https://nlp.baidu.com/homepage/nlptools/

  [21] Jiacheng Zhang, Yang Liu, Huanbo Luan, Jingfang Xu and Maosong Sun. 2017. Prior Knowledge Integration for Neural Machine Translation using Posterior Regularization. In Proceedings of ACL 2017, Vancouver, Canada, July

  [22] Yanzhuo Ding, Yang Liu, Huanbo Luan and Maosong Sun. 2017. Visualizing and Understanding Neural Machine Translation. In Proceedings of ACL 2017, Vancouver, Canada, July.

  [23] Yong Cheng, Zhaopeng Tu, Fandong Meng, Junjie Zhai, and Yang Liu. 2018. Towards Robust Neural Machine Translation. In Proceedings of ACL 2018, pages 1756-1766, Melbourne, Australia, July 15-20

  [24] Mingbo Ma, Liang Huang, Hao Xiong, Kaibo Liu, Chuanqiang Zhang, Zhongjun He, Hairong Liu, Xing Li, Haifeng Wang. STACL: Simultaneous Translation with Integrated Anticipation. ACL-2019

  [25] Hao Xiong, Zhongjun He, Hua Wu, Haifeng Wang. Modeling Coherence for Discourse Neural Machine Translation. AAAI-2019.

  [26] Yuchen Liu, Hao Xiong, Zhongjun He, Jiajun Zhang, Hua Wu, Haifeng Wang, Chengqing Zong. End-to-End Speech Translation with Knowledge Distillation. https://arxiv.org/abs/1904.08075

特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。


返回网站首页 本文来源:互联网

本文评论
头号玩咖参展2019世界VR产业大会 国务院副总理刘鹤莅临指导
2019年10月19日-21日, 2019世界VR产业大会在江西南昌举行。在同期举办的2019 VR/AR产品和应用展览...
日期:10-19
世界VR产业大会开幕 玖的揽获「中国VR50强企业」「VR/AR年度创新奖」两大奖项
10月19日,以“VR让世界更精彩——VR+5G开启感知新时代”为主题的第二届世界VR...
日期:10-19
开发者服务起风了:2019极光开发者大会,聚焦开发价值!
2019年10月19日,“2019极光开发者大会”在深圳召开,数千位互联网公司技术领袖、合作伙...
日期:10-19
华为:希望把VR/AR打造成下个智能手机产业
10月19日消息,2019世界VR产业大会在江西省南昌市举行。华为轮值董事长郭平发表了《打造VR/AR信息高...
日期:10-19
华为云受邀参加2019IDC中国数字化转型年度盛典,“5G+云+AI”助力企业数字转型
2019年10月18日,由IDC中国主办的“2019 IDC数字化转型年度盛典暨第四届中国数字化转型领军用...
日期:10-19
语音识别大拿Daniel Povey正式加入小米,将组团队开发下一代Kaldi
10月19日消息 据小米集团副总裁、小米技术委员会主席@崔宝秋-小米 消息,语音识别大拿Daniel Povey...
日期:10-19
蚂蚁金服共享智能平台打破数据孤岛,荣获“2019CCF 科技进步优秀奖”
10月18日,在2019中国计算机大会上,“蚂蚁金服隐私保护共享智能平台”荣获“CCF科...
日期:10-19
我国研发5款自主产权3D显卡:支持国产处理器及操作系统
   继国产处理器获得突破之后,国产GPU/显卡也取得了重大进展。
日期:10-19
华为开发者大会2020将于明年2月11日在深圳召开
10月19日消息 今日上午,据华为中国官方消息,华为开发者大会2020将于2020年2月11日-12日在深圳召开...
日期:10-19
Digitimes:英特尔将在2020年中发布Xe独显,采用10nm工艺
10月19日消息 根据TPU的报道,接近Digitimes的消息人士透露,英特尔将很快推出其首个10纳米独立显卡...
日期:10-19
AMD有望在11月5日发布新款线程撕裂者和TRX40芯片组
10月19日消息 根据VideoCardz的独家爆料,AMD计划发布三款Threadripper 3000处理器,分别是 3960X,...
日期:10-19
英特尔将于月底推出新款超低压处理器:10nm工艺,3D封装
10月19日消息 根据Notebookcheck的报道,英特尔将于2019年10月23日和24日在加州圣克拉拉的凯悦酒店...
日期:10-19
政企智能转型升级正当时 华为云打造西安智慧产业新高地
10月17日,由华为公司主办的“西安·选择不凡 华为云城市峰会2019”在西安如期举行...
日期:10-19
华为云依托5G+云+AI技术 加速政企转型升级
10月17日,“西安·选择不凡 华为云城市峰会2019”如期在西安举行。西安市市长李明...
日期:10-19
西安航天基地华为云人工智能创新中心正式发布
10月17日,西安·选择不凡 华为云城市峰会2019在西安举行,针对Cloud 2.0时代下的政企上云需...
日期:10-19
人才培养正当时,华为云联合7大高校发布西北鲲鹏人才培养计划
  10月17日,西安·选择不凡 华为云城市峰会2019在西安拉开帷幕,着眼西北地区科技创新发展,华...
日期:10-19
爱奇艺创新CDN系统奇速播荣获中国计算机学会 “CCF科学技术奖科技进步杰出奖”
10月17日-19日,由中国计算机学会(CCF)创办的2019中国计算机大会在苏州举办,爱奇艺融合边缘云的新...
日期:10-19
世界互联网大会开幕,UCloud优刻得展示企业上云新科技
10月18日上午,第六届世界互联网大会“互联网之光”博览会在浙江乌镇拉开帷幕。国家互联...
日期:10-19
Breeno语音“万物互融”丰富覆盖渠道,为开发者提供更多品牌精准客群
10月15日「OnePlus 7T 系列新品发布会」在北京举办。此次发布会除了发布了硬件端旗舰级一加手机,也...
日期:10-18
哈弗H6斩获第76个月销冠,不断刷新SUV市场销量记录
进入2019年下半年后,中国汽车市场发生了微妙的变化,轿车相较2018年依旧呈现下跌态势,而SUV异军突起,...
日期:10-18
  专栏介绍
王涵 的专栏
王涵发表的文章
积分:
自我介绍 :