ITBear旗下自媒体矩阵:

语音交互面临挑战,思必驰用DUI平台实现人机对话

   时间:2017-07-24 16:44:10 来源:互联网编辑:星辉 发表评论无障碍通道

7月21日-22日,WOTI全球创新技术峰会在北京举行,大会聚焦互联网及IT技术领域,大会以“人工智能,不止于技术的革命”为主题,汇聚了来自微软、阿里、思必驰、百度、京东、Uber等企业的AI先行者,并从学术研究、技术研发、市场实践等多个角度进行思想碰撞,通过机器学习、智能交互、智+应用三大会场解读当下最为关注的技术难点和热点问题。

思必驰研发总监张顺演讲现场

人工智能成为最火热的科技话题,语音对话作为人机交互最天然入口,成为焦点,也是当下AI行业必谈话题之一。近期,思必驰针对开发者推出的DUI对话定制平台受到业界关注,此次,思必驰研发总监张顺受邀出席了大会,并在人机交互会场以《用DUI的方式实现人机对话》为主题进行了分享,分析了当前语音应用实践中的挑战与痛点,结合思必驰DUI平台, 展示全新的、可定制的对话交互开发技术。

设备开始能说会道

人机交互及对话系统历史

我们经历着从PC时代、移动时代到现在IoT时代的变迁,人工智能技术改变着人机交互的方式,交互手段也从命令行、图形交互发展到了当下的语音交互。当下的人机对话技术可分为两个层面来看,即感知智能、认知智能。语音唤醒、识别、合成可归结为感知智能领域,在当前的语音实践应用中,语音的认知智能主要体现在人机对话上,大致可分为闲聊、问答、任务型对话等几类。

张顺表示,结合思必驰当前在智能硬件领域的布局及应用,任务型对话是诸多硬件产品的主要交互方案,这种对话往往是针对垂直应用场景的,方式有单轮对话也有多轮对话,交互带有明确目的性,如导航、打电话、听音乐、查询天气等等,这要求语音系统能够跟踪对话状态以及决策策略。目前在智能硬件领域,无论是阿里天猫精灵X1、联想智能音箱,还是小米系列的种种语音操控产品,任务型对话已经得到了十分广泛的应用,设备变得能说会道。

语音交互技术在实践中面临着挑战

伴随着语音技术的商业化应用范围不断扩大,它既为产品带来了有声体验,也暴露了一些应用的难点和挑战。张顺从感知智能、认知智能、工程开发三个角度出发,结合思必驰当前的业务布局与应用,分析了目前语音交互技术在实践中面临的挑战。

语音技术在感知智能和认知智能领域的应用面临挑战

从感知智能角度,目前的语音技术应用面临着声源定位及跟踪、远场及集外噪声环境、超低功耗等挑战,例如,在智能车载的应用场景下,胎噪、风噪、发动机降噪等都影响着车载产品的语音识别准确度。在降噪方面,思必驰通过VDCNN算法降噪,极大提高了语音识别精准度,与此同时,环形6麦阵列可以更高的解决声源定位问题,并能够实现5米的远场交互,这些技术目前都已广泛应用到了车载、家居等领域,并在进行不断的迭代与优化。

从认知智能角度出发,更多的是面临理解和对话上的问题,例如,解决多系统融合和跨系统上下文的问题;解决多模态交互中,GUI和VUI融合相辅的问题;通过冲突检测、指名道姓、排列技能优先级等方法解决多技能说法冲突的问题。此外,针对集外内容, 张顺表示,识别与语义对话是一体的,要保证流畅的好用的交互体验,不宜分开选型,内容资源、语言模型与语义需要三者配合好。这些都是当前语音应用在认知智能领域需要努力的方向。

语音应用在工程上的挑战

在工程上也面临着几个重点问题,一是支持主流软硬件平台实现跨平台语音服务;二是解决网络环境问题,在拓展云端技能的同时,拓展本地技能,保证无网环境下的使用也极为重要;三是提高可定制能力,通用的模型无法满足开发者的多样化需求。张顺表示,思必驰在与合作伙伴打磨产品的过程中发现,很多客户都想通过定制功能增强产品的差异化与个性化。因此提高语音服务的可定制能力变得尤其重要,解决这些问题必将促进语音技术应用的进一步深入与发展。

开放可定制的AI语音平台成为刚需

基于目前智能语音在实践中应用面临的问题,张顺表示,为个人/企业开发者们提供一个开放的可高度定制的对话平台成为刚需。思必驰基于目前业务布局情况,推出了DUI开放平台,提供包括阵列、声纹、唤醒、识别、合成、语义、对话、GUI等完整的人机对话交互核心技术,基于目前成熟的语音技术基础之上,提供开放定制能力,这是一个从前端语音信号处理到后端资源对接、技能开发等一站式的对话定制平台。

思必驰DUI开放平台产品接入页面

思必驰DUI平台惠及多方,能够为技能开发者提供开发技能、迭代优化的能力,为内容资源方提供内容接口,为产品厂商提供产品接入及内容支撑的服务。张顺在演讲中表示,不仅如此,可视化的数据开发平台,“云+端”的混合模式,能够让开发者实时掌控数据变动,依据产品用户需求,实时更新产品功能,用户可在第一时间感受最新技能,借此,思必驰通过C端及B端的应用变化,将进一步优化DUI开放平台,总体而言,这是一个多方共赢的趋势。

现场,张顺展示了DUI平台开发技能中的对话控件,包括文字、图文卡片、列表、音乐播放、内嵌网页等,介绍了目前DUI平台的接口资源,覆盖交通出行、生活服务、影音视听、社交分享、新闻资讯、效率工具、商业财务等诸多资源及技能。

张顺表示,DUI平台的可视化界面极大降低操作门槛;具备超高度定制性,几乎所有的模块均可自定义,例如GUI自定义、唤醒词定制、深度技能定制、对话逻辑和内容定制等,给开发者更多发挥和想象的空间,打造更具差异化和个性化的产品;同时“云+端”混合模式,支持云端实时更新,也提供本地唤醒、本地识别、本地技能开发等功能,保证在网络不佳甚至在无网状态下的可用性。可视化数据反馈报道、多版本管理等功能能够极大减轻开发者后期的运营压力。DUI开放平台能够快速推进AI语音技术的产品化。

据悉,为扶持平台上优秀的开发者、优秀应用案例和创业项目,思必驰设立2亿元基金,并推出了开发者计划,打造开发者生态。一方面推进思必驰AI语音技术的应用领域的拓展及深入,另一方面在于促进AI语音技术的商业化落地,实现产品化,推动更多语音产品的出现,走进千家万户,带来智能未来的生活体验。AI技术改变生活,距离我们已近在咫尺。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  网站留言  |  RSS订阅  |  违规举报  |  开放转载  |  滚动资讯  |  English Version