随着深度学习技术的发展,其使得计算机朝着真正的人工智能迈进了一大步,使用海量数据来自动识别图像和文本,并实时进行人机间的“对话”将不再是天方夜谭。虽然目前还有很多理论和建模等方面的问题等待探索和解决,但是深度学习已经显示出了它在技术上的巨大潜能。本文将简要介绍深度学习理论的起源与发展,重点阐述深度学习在安防领域的具体应用现状和存在的困难,并且介绍安防产品如何基于深度学习得到性能上的提升。
一、深度学习的起源与发展
人工智能(ArtificialIntelligence)是人类最美好的梦想之一,有很多的艺术作品和科研探索对它展开了广泛的讨论。虽然在人类和大量现成数据的帮助下,目前的电脑表现非常强大,可是人工智能的美好想法似乎仍然可望而不可及。不过令人感到振奋的是,除了云计算对大数据的并行处理技术手段,借助深度学习(DeepLearning)算法,人类终于找到了如何处理“抽象概念”的方法。
自2006年以来,人工智能和机器学习领域取得了突破性进展。近几年深度学习的持续走红也对这一领域产生了巨大的冲击。“深度学习”的概念最早由多伦多大学的GeoffHinton和他的同事于2006年提出。Hinton意识到科学家们并没有真正理解大脑——他们可以解释电信号如何连接神经元,但他们无法解释这些神经元是如何学习或计算的。他认为这些问题可能最终指向人工智能的终极梦想。当然我们也可以追溯到更早,由纽约大学的YannLeCun于上世纪90年代开发的5层卷及神经网络(5-layercnn)进行手写数字识别,不过由于当时的计算机硬件有限,没有得到大规模的应用。
随着互联网的快速发展,特别是近两年大数据时代的来临,深度学习得到了进一步发展。2012年6月,《纽约时报》披露了GoogleBrain项目,即直接把海量数据投放到算法中,让数据自己说话,系统会自动从数据中学习。2012年11月,微软在中国天津的一次活动上公开演示了一个基于深度学习的全自动同声传译系统,演讲者用英文进行演讲,后台的计算机自动实时完成语音识别、英中机器翻译和中文语音合成,效果非常流畅。2013年,DanC.Ciresan的乳腺癌细胞有丝分裂检测超越了人眼的识别效果。在这之后,研究机器学习与人工智能领域的教授都开始发表有关深度学习的论文,以2015年的CVPR会议为例,很多论文主题和深度学习密切相关。当然,深度学习目前仍有大量工作需要研究,目前的关注点还是从机器学习的领域借鉴一些可以在深度学习使用的方法。
应该说,最早受到深度学习冲击的就是互联网行业自身。因此,他们更加关注如何将深度学习与具体应用相结合。互联网行业的大型公司,如谷歌、微软、百度、腾讯、阿里巴巴等,都相继成立了自己的相关研发团队,或者成立深度学习研究院,致力于大数据驱动的人工智能技术创新,在语音和图像识别等具体应用领域取得了一定的成果。
二、安防领域的深度学习应用
随着智能交通、智能家居的兴起,安防领域也将成为人工智能和机器学习关注的热点,从而成为受到深度学习第二波冲击的重要领域。
深度学习作为机器学习研究中的一个领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像、声音和文本等。目前,深度学习的应用领域中大约有70%都在图像识别方面,结合安防领域的现状,这就意味着,深度学习在这一领域必然会有颠覆性的发展。随着大数据与高清摄像机应用的普及,安防大数据时代已经到来,海量高清及以上分辨率视频数据给安防产品技术带来了大数据,这也就成为深度学习在安防领域必将快速发展的肥沃土壤。
机器学习(MachineLearning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。传统的机器学习方法有adboost、神经网络、支持向量机、随机森林、提升决策树等,虽然目前在安防领域已经获得了一定的成功,但它们在目标的定位率和识别率的提升上已经陷入了一定的瓶颈:很多具体应用中的识别率无法得到提升;在大规模多场景应用中,虚警问题也给安防领域带来了很大的困扰,即使是增加训练样本依然不能缓解这一问题。
以安防领域中最成功的车牌识别算法为例,虽然目前很多厂商都宣称自己的车牌识别率已经达到了99%,但这也只是在标准卡口的视频条件下再加上一些预设条件来达到的。在针对很多简易卡口和卡口图片进行车牌定位识别时,较好的车牌识别也很难达到90%。不过随着采用深度学习的应用,这一情况将会得到很大的改善。
在传统的图像处理和机器学习算法研发中,很多特征都是人为制定的,比如hog、sift特征,在目标检测和特征匹配中占有重要的地位,安防领域中的很多具体算法所使用的特征大多是这两种特征的变种。人为设计特征和机器学习算法,从以往的经验来看,由于理论分析的难度大,训练方法又需要很多经验和技巧,一般需要5到10年的时间才会有一次突破性的发展,而且对算法工程师的知识要求也一直在提高。深度学习则不然,在进行图像检测和识别时,无需人为设定具体的特征,只需要准备好足够多的图进行训练即可,通过逐层的迭代就可以获得较好的结果。从目前的应用情况来看,只要加入新数据,并且有充足的时间和计算资源,随着深度学习网络层次的增加,识别率就会相应提升,比传统方法表现更好。
初看之下,深度学习似乎是一种万能的方法,什么问题都能够轻松解决,然而就深度学习的具体应用而言,目前依然存在三大主要难题:第一是大数据标定的问题,深度学习领域的一句流行语——“谁掌握着数据谁就掌握着市场”,就充分地说明了这一点;第二是计算量过大的问题,在具体应用中随着数据和网路层次的增加,不仅训练花费的时间在大幅增加,测试时间也在增加,在具体应用中很难实现前端化和实时化;第三是训练收敛问题,以在图像识别中应用最多的卷积神经网络(CNN)为例,目前已经出现了几百层的网络结构,训练过程中一般采用梯度下降的方法,这一过程中如果层数过多,数据初始化不合理就很容易不收敛。
三、基于深度学习提升安防产品性能
虽然存在以上这些问题,但是深度学习依然是非常有效的方法,这些问题也必将随着时间的推移得到妥善解决。除此之外,很多企业以及机构的努力也正在使深度学习现有的一些问题得到较大的改观,例如面对数据问题,目前国内已经出现了“数据堂”这样专门整理数据的公司,安防公司只要一定的人力投入即可。关于计算量的问题,虽然目前像“英伟达”这样提供高性能计算显卡的公司还不多,但更多消息显示,Intel、高通、AMD等公司都已开始进行相关产品的研发工作。此外,中科院已经开始研发专门的深度学习芯片。
在可以预见的未来,很多安防公司都会陆续推出与深度学习相关的产品,或是采用深度学习算法提升已有产品的性能。对于科达公司来说,刚过去的2015年是大规模应用深度学习的元年。在车牌识别、车辆颜色、车辆厂商标志识别、无牌车检测、非机动车检测与分类、车头车尾判断、车辆检索、人脸识别等相关的技术方面,公司都已经开始应用深度学习算法,并且相关众多产品的性能也在深度学习的帮助下得到了一定的提升。
以安防产品的具体应用为例,在车牌识别方面,目前深度学习算法克服了传统方法在各种不同条件下识别率不够稳定的情况,用这一方法识别的车牌识别率更稳定,污损与模糊不清的号牌的识别情况更好,图片模式的车牌定位率和识别率更是分别从90%和85%提升到95%和93%以上。在车辆颜色识别方面,基本上克服了由于光照条件变化、相机硬件误差所带来的颜色不稳定、过曝光等一系列问题,因此解决了图像颜色变化导致的识别错误问题,卡口车辆颜色识别率从80%提升到85%,电警车辆主颜色识别率到从75%提升到80%以上。在车辆厂商标志识别方面,使用传统的HOG、LBP、SIFT、SURF等特征,采用SVM机器学习技术训练一个多级联的分类器来识别厂商标志很容易出现误判,采用大数据加深度学习技术后,车辆车标的过曝光或者车标被人为去掉等引起的局部特征会随之消失,其识别率可以从89%提升到93%以上。在车辆检索方面,车辆的图片在不同场景下会出现曝光过度或者曝光不足,或者车辆的尺度发生很大变化,导致传统方法提取的特征会发生变化,因此检索率很不稳定。深度学习能够很好地获取较为较稳定的特征,搜索的相似目标更精确,Top5的搜索率在95%以上。在人脸识别项目中,由于光线、姿态和表情等因素引起人脸变化,目前很多应用都是固定场景、固定姿态,采用深度学习算法后,不仅固定场景的人脸识别率从89%提升到99%,而且对姿态和光线也有了一定的放松。
结语
深度学习在语音识别、图像识别、自然语言处理等应用中取得了显著的成效,但是在安防行业,深度学习实际上才刚刚起步。然而,它正深刻地影响和改变着安防企业,影响着智能视频分析技术。现在已经有很多安防企业开始投入资源开发基于深度学习技术的算法、产品。我们有理由相信,深度学习在安防领域中的前途是无限光明的。