ITBear旗下自媒体矩阵:

衣+ 科学家提出三值神经网络 让AI无处不在

   时间:2016-05-28 12:26:26 来源:互联网编辑:星辉 发表评论无障碍通道

世界领先的创新

人工智能已经成为最重要的技术革命,目前市场所关心的IT领域几乎所有热点,诸如智能硬件、O2O、机器人、无人机、工业4.0等,其发展突破的关键环节都是人工智能。近年来,深度神经网络模型在图像识别、语音识别、自然语言处理、智力游戏挑战(AlphaGo)等领域取得了飞快的进展。尤其是在图像识别领域,深度卷积神经网络取得了前所未有的成功,目前深度学习已然成为各大科技公司的战略核武器,得到了大力发展。

不久之前深度学习的领军人物之一Yoshua Bengio所在蒙特利尔大学的研究小组提出了基于二值的神经网络优化方法,该技术大幅提高了二值神经网络的预测准确率并接近实用水平,在业界引起了很大的轰动,人工智能技术可能会因此向前推进若干年。

北京陌上花科技有限公司(衣+)在人工智能领域有着多年的技术积累,衣+的深度学习专家针对二值神经网络的缺陷,经过数学上的理论论证,提出三值神经网络模型(Ternary Weight Networks),继承了二值神经网络的优点同时模型的表达能力上大大提升,三值神经网络各方面指标达到了世界领先的水平。

在“智能硬件”火热的今天,很多硬件水平还无法完全达到产品号称的“智能”,其中计算功耗是制约硬件智能化的一个很大的障碍。比如智能手机、嵌入式平台如虚拟现实产品Oculus、增强现实产品HoloLens等很多基于人工智能的应用还只能放在云端,非常不灵活。

深度学习技术做为人工智能一大热点,模型参数都是使用浮点数来存储数据和进行运算,要求非常大的存储空间和非常大的浮点数计算量,占用很多资源。例如经典的深度卷积网络AlexNet具有200多Mb左右的参数量、VGG-19有500多Mb的参数量,最小的用于ImageNet分类的Residual Network (18 layers)也有50多Mb的参数等。即使是最小的Residual-18网络,处理一张长宽为224的彩色图片也需要18亿次的浮点数运算。为了进一步提升深度学习模型的能力甚至催生了ResNet-1001这种层数达到上千量级的网络。

现在主流的GPU显卡,例如GTX Titan X,单卡功耗就有250W,相当于三分钟内耗尽一部iPhone 6手机的电池。这种高功耗还对散热有着苛刻的要求。因此,功耗、计算能力等因素瓶颈制约了AlexNet为代表的传统深度神经网络被应用到更多的设备里,比如Apple Watch和Google Glass等可穿戴设备上。虽然云计算可以将一部分计算转移到云端,但在需要处理高流量输入信号和要求高实时性的场合中,云计算的带宽、延迟和全时可用性都受到挑战,而无法完全替代本地计算。设计既能节省存储空间和计算资源,又具有高精度的模型,对于激活手机移动端、可穿戴设备等智能产品的性能具有迫切的需求。很多大公司和科研机构都将深度学习模型压缩作为追逐的目标。

三值神经网络解析

二值神经网络通过把浮点单精度的系数变成正1或负1,系数的二值化(Binary Connect Network)能达成存储大小变为原来的1/32。进一步如果中间结果也变为二值,可以将浮点计算替换成整数位运算。在支持64位运算的CPU和GPU上,这意味着64倍的理论加速比。相当于允许把一个此前只能在高性能服务器上运行的深度学习模型放在智能手表上运行。然而,二值神经网络损失的信息相对于浮点精度是非常大的。

因此,对于同样结构的网络模型,二值权重的效果相对于全精度的效果会有不同程度的下降,尤其是面对大规模的真实环境的数据比如ImageNet(http://image-net.org/),二值神经网络模型表达能力会出现严重的不足。例如,用全精度的ResNet-18网络模型在ImageNet2012 数据集上精度可以达到68%左右,然而同样时间复杂度下,用二值化的Residual 18层网络模型只能达到60%左右的精度,用更快的XNOR网络则只能达到50%左右的精度。因此,二值化的神经网络模型在追求速度的同时极大的降低了精度。另外,这种粗糙的二值化近似导致训练时模型收敛速度非常慢,往往需要比平常多3倍以上的训练时间才有可能达到比较近似于全精度的结果。这对于训练大规模的神经网络是不可接受的。

相对于二值神经网络,三值神经网络(Ternary Weight Networks)在同样的模型结构下可以达到成百上千倍的表达能力提升;并且,在计算时间复杂度上,三元网络和二元网络的计算复杂度是一样的。

例如,对于ResNet-18层网络中最常出现的卷积核(3x3大小),二值神经网络模型最多可以表达2的3x3次方(=512)种结构,而三元神经网络则可以表达3的3x3次方(=19683)种卷积核结构。在表达能力上,三元神经网络相对要高19683/512 = 38倍。因此,三元神经网络模型能够在保证计算复杂度很低的情况下大幅的提高网络的表达能力,进而可以在精度上相对于二值神经网络有质的飞跃。另外,由于对中间信息的保存更多,三元神经网络可以极大的加快网络训练时的收敛速度,从而更快、更稳定的达到最优的结果。

二值、三值神经网络和全精度神经网络性能对比测试

在ImageNet百万量级的真实数据库上,三值神经网络相较于全精度的精度只降低2到3个百分点,大大优于二值化神经网络。在模型压缩上,三值神经网络可以做到16倍的压缩率,从而将ResNet-18网络从45Mb压缩到2.9Mb。该技术已经成功的应用到了手机端的图像识别服务,并且以SDK的方式提供给第三方厂商在嵌入式设备中进行应用。

三值神经网络能带来什么革命?

三值神经网络,将在可穿戴设备、机器人、无人机、无人车、智能摄像头等领域获得巨大的应用。

智能眼镜/VR头盔,可以打造AR/VR购物、导航、游戏的完美体验。

智能手表,可以语音识别聊天,成为更好的智能助手。

机器人可以进行人脸核实、物体识别、场景识别、动作识别等等,更好地与人进行交互。

监控摄像头可以扫描人群,进行人脸识别,同时进行异常行为检测和暴力场景检测等等。

无人机航拍,则可以从鸟瞰的视角进行移动物体的动态检测和实时监控。

智能汽车可以通过车载摄像头获取街景信息,经过智能分析平台,实现场景文字识别,路况分析,建筑物交通标志识别等。进一步融合其它传感器的信息实现无人驾驶。

这一切,都是在智能设备中实时计算完成。

告别断网即不灵的云设备,精准度高、性能好、省电、对硬件要求很低。

三值神经网络的问世,使智能设备的科幻魅力与现实零距离无缝对接。

这将是历史上最激动人心的篇章之一,一次伟大的技术革新。

看,世界正在被改变。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  网站留言  |  RSS订阅  |  违规举报  |  开放转载  |  滚动资讯  |  English Version
关闭
ITBear微信账号

微信扫一扫
加微信拉群
电动汽车群
科技数码群