您的位置:首页>>业界动态

百度语音识别技术突破,巨头崛起,传统没落?

发布时间:2016-11-03 13:56:47  来源:互联网    背景:

  语音识别行业正面临新一轮的洗牌。

  早在两年前,大家的普遍认识是语音识别领域将会催生出巨头公司。所以当苹果、Google、百度、三星和微软提出要收购当时全球语音领域的老大Nuance的时候,Nuance CEO Paul Ricci一口回绝。

  但随之不久,苹果、Google和微软都选择了摆脱Nuance的依赖,自建团队开发语音业务。在那之后,Nuance的市场份额节节下跌,2014年还高达60%的市场份额,一年时间缩水一半只剩31.1%(Source:Research and Markets)。相比之下,Google语音识别的市场份额增长明显。

  在英语领域,我们看到的趋势是作为搜索巨头的Google逐渐占据行业的主导权。那对于中文领域的市场,是否会重现在英语领域语音识别发生的历史呢?当百度重兵布局语音领域,是否会成为中国语音识别领域标准的制定者,占据行业主导权呢?

  我们从多个角度分析。

  1.语音识别新架构:用做图像的方法做语音

  近些年来,我们发现在图像领域有一个明显的发展趋势:越来越深的卷积神经网络层级(CNN),从最初的8层,到19层、22层、乃至152层的网络结构。而随着网络结构的加深,ImageNet竞赛的错误率也从2012年的16.4%逐步下降到3.57%。

ImageNet竞赛中,越来越深的CNN不断刷新着其性能

  那么,深度学习在图像领域的进展,是否能够在语音识别上有所突破呢?

  通常情况下,语音识别是基于时频分析后的语音谱完成的。如果将卷积神经网络的思想应用在语音识别的声学建模上,我们就可以把时频谱当作一张图像来处理。而由于卷积神经网络的局部连接和权重共享的特点,它具有很好的平移不变性,所以可以将它应用在语音识别中,而且还能克服语音信号本身的多样性(说话人自身、以及说话人间、环境等)。

Deep CNN语音识别的建模过程

  但这里遇到一个问题,虽然在ImageNet竞赛中得到广泛关注的Deep CNN结构能够显著提高性能,但由于无法实现实时的计算,其很难在产品模型中得到实际的应用。

  一个解决方案是借鉴Residual连接的思想,训练一个数十层的包含Residual连接的 Deep CNN,以用于工业产品中。

  百度对此做了对比实验,最终发现Deep CNN架构不仅能够显著提升HMM语音识别系统的性能,而且也能提升CTC语音识别系统的性能。在此同时,百度也尝试了将LSTM或GRU的循环隐层和CNN结合,这是相对较好的选择。

  这也推导出了百度发布的新型语音识别架构:Deep CNN + LSTM + CTC。

  模型结构采用:Deep CNN + Deep LSTM。

  建模方式:基于CTC的端对端建模。

  通过创新的架构,百度大幅提升了语音识别产品的性能,相对于工业界现有的CLDNN 结构,错误率相对降低了10%以上。

  2.新架构推动语音大规模产业化

  从历史来看,产品和系统真正的大规模使用和推广,一般都来自于基础性的变革和突破。

  对于语音识别来说,真正能够实现大规模使用的系统,一定要满足:在不同场景、方言下的稳定性,大规模的训练能力,极短的训练时间,大大降低的机器耗费。这好比 Android 一样,稳定、支持海量应用和场景开发、开发时间短、开发成本低。

  而Deep CNN和LSTM、CTC结合的架构,在以下几个方面有显著的优势:

  1)更强的通用性。使用一个单独的算法完成从任务输入端到输出端的所有过程。

  2)大规模训练的能力。能够在约10万小时的精准标注语音数据中完成训练。

  3)大大降低服务成本。以CTC为例,它能够让语音识别解码的计算量降下来,光这部分成本就能降低近1倍。

  4)适合工业界。据百度Deep Speech中文研发负责人李先刚介绍,百度不仅能达到近十万级的数据规模,而且能够支持高性能计算,这可以让优秀的模型直接移植到产品线中。

  5)性能更优秀。以往语音系统将训练过程拆解,人为干预多,但效果不一定好。端对端模型减少了人为干预,直接从输入端到输出端,一般性能会更好。

  6)层数越深,效果越好。引入了深层CNN的概念,语音识别的性能得到显著的提升,正如李先刚博士所言:‘The Deeper , The Better’。

  李先刚博士特意提到了百度语音的研发侧重点。与学术研究不同,百度语音聚焦于技术的实际应用,技术难度和实现程度更高。针对语音识别产品而言,首先要具备在大规模语音数据库上体现性能提升,其次就是具有适合语音在线识别产品运行的模型。

  正是基于以上这些优势,让百度语音识别真正成为大规模产业化的基础,带来真正的人机交互变革。

  3.语音识别以量取胜的同时,也以质取胜

  语音识别技术经历了长达60年的发展。2006年Hinton提出了深度置信网络,掀起了深度学习的热潮。2009年,Hinton以及他的学生D. Mohamed将深度神经网络应用于语音的声学建模,在小词汇量连续语音识别数据库TIMIT上获得成功。从2010年开始,微软的俞栋、邓力等学者首先尝试将深度学习技术引入到语音识别,随后逐渐成为了主流。

  而在以深度学习的发展脉络下,语音识别的准确率和通用性,本质就在于:

  数据量的多少,这很大程度来自于搜索量、使用量的规模;

  算法的优劣,顶级人才在这方面有极其重要的作用;

  计算能力的水平,尤其是在大规模产业化和成本因素下,FPGA等专业硬件的发展水平也非常重要。

  而在这三方面的比拼中,巨头公司将会占据极大的优势,因为它们拥有最多的数据,最顶级的人才以及最强大的计算能力水平。所以当Google开放语音识别API 后,在英语语音识别的市场中,Google将比Nuance有更大的优势。

  而在中文市场中,百度也将扮演着和Google在英语市场相似的角色。

  4.传统专利池受到挑战,竞争回归技术

  语音识别的模型算法每年都有很大的变化。就以百度自己的语音识别技术来说,2013 年语音识别技术主要还是基于美尔子带CNN模型,2014年发展出了Sequence Discriminative Training(区分度模型),2015年初发展出基于LSTM –HMM的语音识别,年底发展出基于LSTM-CTC的端对端语音识别系统,而现在把Deep CNN模型和 LSTM、CTC结合了起来。

百度语音识别技术每年迭代算法模型

  在快速发展的技术下,很多公司选择了采取组建知识产权产业联盟的方法。2015年 11月,百度开放了上百项智能语音专利,和海尔、京东、中兴通讯、中国普天等 20 多家单位组建了智能语音知识产权产业联盟。

  这种开放式创新和开放式知识产权许可的结合,也许会成为智能语音未来的产业核心模式。这也意味着传统语音的专利池,在快速发展、迭代的语音技术下,在更开放的语音联盟下,会失去过去的保护作用。

  所以智能语音的未来发展,关键还是在于核心技术的突破,这也就来到了数据、算法和计算能力的比拼,这方面百度会有很大优势。

  5.人工智能技术生态的重要作用

  当Google发布了语音开放API,其对Nuance的打击是致命的。这不仅仅是因为Google在产品、技术上的优势,而且也来自于Google强大的人工智能技术生态,例如以TensorFlow为代表的深度学习引擎,因为大量的一线工作人员使用,其对语音识别领域的开发选择有强大的影响力。

  当语音技术逐渐往大规模产业化发展时,公司的技术生态会非常重要。对于百度来说,9月份开源的PaddlePaddle,1月份开源的Warp-CTC,都对产业界有深远的影响。

  基于上面的分析,我们认为语音识别将进入大规模产业化的时代。而在核心技术和能力的比拼下,语音识别也将进入巨头崛起,传统语音公司稍显没落的时代。

特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。


返回网站首页 本文来源:互联网

本文评论
友情提示:评论功能暂时关闭,请扫描上方二维码进群交流!
百度Q2财报净利24亿 李彦宏要求内部不忘初心
北京时间8月20日,百度发布第二季度财报,其季度总营收为263亿人民币(约38.4亿美元),远高于华尔街...
日期:08-20
Q2再夺国内第一,“出海之帆”小度剑指谷歌亚马逊
小度在2019年一季度首拿中国智能音箱市场出货量第一,行业有一种看法是:小度一季度登顶与百度春晚...
日期:08-20
2019深度学习框架排行榜(从TOP 10到TOP 3)
1.写在前面
  5G可以说是2019年上半年十分闪耀的那颗“星”了,美方还不惜代价地...
日期:08-20
百度Q2财报逆势上扬 李彦宏的AI成绩单战功显著
8月20日,百度发布2019年第二季度未经审计的财务报告:实现总营收263亿元人民币,净利润24亿元人民...
日期:08-20
iFLYTEK星球大展前,有些故事想说给你听
纵横交错的空中轨道、斑斓色彩的街边招牌、云雾与阴雨包裹的高耸大楼、人声鼎沸的火锅小店…&...
日期:08-20
消息称网易阿里谈崩 考拉不再卖身
最新的消息是,双方的谈判已于下午结束,网易公司董事局主席兼首席执行官丁磊最终否决了该收购案。
日期:08-20
招募!与世界顶级大师面对面
25年前,摄影师Steve McCurry(史蒂夫·麦凯瑞)在印度斋普尔的一条街上拍了位补鞋匠。今年,他重...
日期:08-20
第八届中国双创大赛新乡分赛:报名和晋级数创新高,8强挺进省决赛
8月16日,第八届中国创新创业大赛河南新乡分赛区暨2019新乡市创新创业大赛决赛及颁奖仪式,在高新区...
日期:08-20
来电科技与梦次元达成深度合作 联合举办动漫游戏展览
近日,第二十二届(M22)梦次元夏日祭动漫游戏展在北京落下帷幕,展览日吸引2万余人参加,来电科技作...
日期:08-20
无惧禁令影响,华为上半年太阳能逆变器出货排名第2
芯科技消息(文/罗伊)集邦科技绿能研究(EnergyTrend)最新《台湾地区电站项目整合报告》指出,台湾今...
日期:08-20
realme XT宣布:6400万AI四摄加持 9月亮相
红米预计在本月底首发6400万像素,realme 6400万紧随其后亮相。
日期:08-20
外媒曝光第五代Apple Watch渲染图:陶瓷版回归
随着苹果发布会的日益临近,越来越多有关苹果今年即将发布的新品信息被曝出。近日有外媒再度泄露了...
日期:08-20
华为反击 谁先坐不住?
  (原标题:华为反击,再向前迈进一大步!但这次,先坐不住的竟是“联想”? )
日期:08-20
江山代有IP出 2019超级IP生态大会路演·北京站6强诞生
8月的北京骄阳似火,比气温更火爆的是一场具有文化气息的“炫技”活动。由网赢天下网主办...
日期:08-20
魅族UR模块化定制手机计划曝光 由内到外皆可定制
模块化手机在我们的视线中已经消失很多年了,近日,外媒曝光了魅族一张官网页面照片,显示为魅族新...
日期:08-20
iPhone 11系列邀请函疑似曝光,曝光消息大盘点
今日有知情人曝光疑似iPhone 11系列发布会邀请函,根据邀请函内容显示,iPhone 11系列将在9月10号上...
日期:08-20
杰和科技GDSM——支持多种媒体格式的信发平台
在智慧商显浪潮的席卷下,多媒体信息发布系统得到迅速发展,这一切使得信息流通更加便捷,同时也意...
日期:08-20
向“超人”进化,优友“小哪吒”刷新服务机器人下肢运动发展史
这个炎夏,国漫《哪吒之魔童降世》燃爆了电影市场,40亿+的票房堪称奇迹。装备混天绫、风火轮的吒儿红...
日期:08-20
富士施乐Versant™ 180 Press双色按需印刷系统 助力“红头文件”专业印制
在今年广东印刷展上,富士施乐展区每天都吸引了大量参观者驻足,这不仅因为业界首款一次成像6色的数...
日期:08-20
拥有创新基因的Ta,如今又手握BIRTV奖项
一年一度的BIRTV 评奖活动已于8月20日上午在北京落下帷幕。中影光峰凭借中国自主研发的激光数字电影...
日期:08-20
  专栏介绍
贺飞 的专栏
贺飞发表的文章
积分:
自我介绍 :