ITBear旗下自媒体矩阵:

机器之心GMIS2017:人工智能语音技术的百家争鸣

   时间:2017-05-31 18:06:07 来源:互联网编辑:星辉 发表评论无障碍通道

图1 机器之心GMIS大会现场

柯洁与Alphago的人机大战刚刚落下帷幕,计算机围棋顶级专家、阿尔伯塔大学Martin Müller教授出席了机器之心于5月27日-28日主办的2017全球智能机器峰会(GMIS2017)。出席大会的有众多来自美国、欧洲、加拿大及国内的顶级专家学者,兼顾学界与产业、科技巨头与创业公司,以专业化、全球化的视角带来了一场智能盛宴。

智能语音是GMIS2017全球智能机器峰会的一个重点论题,近些年来在深度学习的推动下,语音识别的准确度在一些评测标准上已经超过了人类水平。国际语音学术领域的顶级学者及业界领军人物悉数出席大会,如LSTM之父Jürgen Schmidhuber、腾讯AI Lab副主任俞栋、Citadel首席人工智能官邓力、加拿大麦吉尔大学语言学副教授&科幻电影《降临》的科学顾问 Jessica Coon、搜狗 CEO 王小川、科大讯飞执行总裁胡郁、思必驰首席科学家俞凯等,从技术研究及产业应用的角度,剖析人工智能语音技术的应用及发展。

腾讯AI Lab俞栋:语音识别领域的前沿研究

俞栋是腾讯AI Lab副主任,语音识别和深度学习领域的著名专家,此前任微软研究院首席研究员,兼任浙江大学兼职教授和中科大客座教授,IEEE语音语言处理专业委员会委员。现场,俞栋发表了《语音识别领域的前沿研究》主题演讲,探讨语音识别领域的4个前沿问题。

图2 腾讯AI Lab副主任俞栋

第一个前沿问题是如何构建更有效的序列到序列(Sequence-to-Sequence)直接转换的模型,目前最佳的解决方案是把 CTC 与 Attention 结合起来,CTC有持续信息,可根据后面的语音信号生成词,这有助于 Attention生成更好的表达,两者结合比CTC、Attention各自训练效果更好,所以是一个1+1大于2的结果。

第二个前沿问题是鸡尾酒会问题,指在嘈杂环境中,屏蔽周围说话声或噪音,将注意力集中在某一个人的声音上,听懂要关注的那个人的说话声音,这是较难解决的一个问题,目前利用麦克风阵列、选择更好的分离模型等办法都在尝试解决此问题。

第三个研究方向是建造一个持续预测与适应的模型;第四个研究前沿则有关远场识别以及如何做前端和后端更好的联合优化问题,通过做一个自动的系统,较好地分配信息的信号处理,使前端可以比较少地丢失信息,从而在后端把这些信息更好地利用起来。

科大讯飞胡郁:人工智能如何改变世界

图3 科大讯飞执行总裁、消费者事业群总裁胡郁

科大讯飞执行总裁、消费者事业群总裁胡郁则从人工智能的技术的应用与价值角度进行了分析,表示,在深度神经网络的进展方面,利用深度神经网络和大数据,特别是涟漪效应,使讯飞在语言识别、自然语言理解取得进展。在人工智能技术的应用价值上,一方面,改变人机交互的方式,从而改变消费者领域产品的形态,从最初的键盘、鼠标,到触摸,再到现在人机交互、语音交互的产品正成为一个新的方式;另一方面,人工智能可以通过从专家这样的稀缺资源学习,构建专家系统。

胡郁指出,人工智能的发展,随着运算智能、感知智能、运动智能和认知智能的发展,将对人类生活产生巨大改变,但是人工智能不会替代人类的职业,它会改变人类的职业,帮人类节省时间,让人类的时间使用更加有效。

思必驰俞凯:人机对话系统“智能的感知+认知的进化”

俞凯是上海交通大学教授、思必驰联合创始人/首席科学家,曾为英国知名语音公司VocallQ(现已被苹果收购)的创始人之一。28日上午,俞凯发表了主题为《迈向智能认知型对话交互》的演讲。

图4 上海交大教授、思必驰联合创始人/首席科学家俞凯

俞凯指出,目前,从语音识别精准度、搜索速度等感知角度来看,机器系统已逼近人类水平,例如思必驰上海交大实验室推出的VDCNN抗噪算法模型、PSD新型解码框架等,均在语音识别领域取得了成绩。但目前,仍有很多问题存在,如声源定位及追踪、远场、低功耗、非配合式语音交互、主题或应用领域的演变等等,其中“非配合”几乎是最难解决的问题,这种“非配合”往往体现在语音信号、语言范围等方面。

目前,除依靠“深度学习+大数据”来解决未来对话交互问题外,俞凯教授还强调以下几点:第一,交互的时机,要研究对话过程中什么时间切入最为自由,什么时间切入最为恰当;第二,强化学习是未来非常重要的发展方向。但目前,无论是研究机构还是工业机构,没有任何一家有全强化学习的系统,而都是混合一点的或者主要以规则为主的系统;第三,解决用户异常的处理;第四,自适应,在对话交互当中,语义理解的自适应要远比语音识别更重要;第五,大数据不能解决所有的问题,要逐步进行非结构化小数据处理,这是大数据之外我们所面临的挑战。俞凯指出,“智能的感知+认知的进化”将是未来人机口语对话系统发展的重要方向。

搜狗王小川:人工智能技术的应用与思考

人机大战是GMIS2017的一大看点,28日下午,在搜狗与VIP速记创始人五轮PK过后,搜狗CEO 王小川发表了《人工智能技术与应用思考》的主旨演讲。

图5 搜狗CEO 王小川

搜狗用识别、决策、生成这样的表达来谈论深度学习,王小川表示,搜狗最有感觉的突破是在识别和生成领域,并认同未来商业智能就是人工智能决策,语言理解是人工智能的皇冠,搜狗努力的方向就是以文字为核心、以语言为核心,去做语音、图像甚至包括翻译的工作。

王小川指出,搜狗在做的事情之一就是垂直问答系统,没有数据库、互联网资料作为输入,搜狗汪仔已经在《一站到底》已经战胜人类选手了。汪仔动用了全部搜索的力量,甚至可以与IBM Watson进行对比。但是,目前在那些不在人类现有知识范围内的知识,这台机器无法进行问答,汪仔还不能推理,无法作答。此外,辅助对话和海外搜索也是搜狗目前的两个重要业务,搜狗在翻译领域已经取得了突破,搜狗输入法的自动翻译功能已经可以为很多工作者带来便捷。

图6 加拿大麦吉尔大学语言学副教授Jessica Coon

国际领域的专家学者也解读了人工智能语音技术,加拿大麦吉尔大学语言学副教授、科幻电影《降临》科学顾问 Jessica Coon进行了《外星人、田野调查和通用语法》的主旨演讲。俄亥俄州立大学终身教授汪德亮发表了主题为《基于深度学习的语音降噪技术》的演讲,探讨分享了鸡尾酒会问题研究的当前进展、解决方案及其泛化等相关问题。

放眼国内,智能语音技术已然被推向了风口浪尖,这不仅加速了腾讯、阿里、百度、搜狗、科大讯飞等一线企业的产业布局,也为思必驰、出门问问等专业语音企业带来了极大机遇,资本涌动、新型创业企业不断涌现,使这一领域已成为一片红海。技术创新力是人工智能企业生存的关键,构建技术壁垒成为重中之重,但这一切的出发点,都是满足需求,为人类带来更加智能的未来。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  网站留言  |  RSS订阅  |  违规举报  |  开放转载  |  滚动资讯  |  English Version
关闭
ITBear微信账号

微信扫一扫
加微信拉群
电动汽车群
科技数码群