APP下载

计算机视觉在物流仓储安全管理中的应用

2020-12-23王梦啸

软件 2020年10期
关键词:目标跟踪计算机视觉卷积神经网络

摘  要: 物流仓储安全管理对于现代企业的生存有着重要的意义。伴随着我国物流行业与信息时代的发展,应用计算机视觉技术、智能视频监控系统、安全仿真技术等实现物流仓库的安全,达到物流仓库管理的智能化与现代化。在实际的物流仓储场景中,因为外界的光线变化、噪声干扰以及场景的复杂情况等,会影响物流目标的检测。如何获得目标的良好表征,成为有效且准确地检测并提取出用户感兴趣的目标的关键。针对该问题,本文提出了一种基于相关滤波与卷积神经网络的目标跟踪算法,并经实验结果验证了该算法的可行性。

关键词: 计算机视觉;图像处理;相关滤波;卷积神经网络;目标跟踪;傅里叶

中图分类号: TP3    文献标识码: A    DOI:10.3969/j.issn.1003-6970.2020.10.046

本文著录格式:王梦啸. 计算机视觉在物流仓储安全管理中的应用[J]. 软件,2020,41(10):180183

【Abstract】: Safety management of logistics and storage is of great significance to survival of modern enterprises. With development of logistics industry and information age in China, computer vision technology, intelligent video monitoring system, security simulation technology, etc. has been applied to achieve security of logistics warehouse, intelligent and modern logistics warehouse management. In actual logistics storage scene, external light changes, noise interference and scene complexity may affect detection of logistics target. How to obtain good representation of the target is the key to detect and extract target of users effectively and accurately. To solve the problem, this paper proposes a target tracking algorithm based on correlation filtering and convolution neural network, and experimental results has verified feasibility of algorithm.

【Key words】: Computer vision; Image processing; Correlation filtering; Convolution neural network; Target tracking; Fourier

0  引言

根据《物流术语》国家标准中,现代物流的概念是指相应物品从物品供应地到物品接收地的流动过程。伴随着我国社会的不断地发展,京东、苏宁、淘宝等等电子商务快速蓬勃的发展起来,这对我国物流行业带来了发展,同时也带来了严重挑战。电子商务与物流行业相互促进,让电子商务成为了我国物流市场的强大动力。近年来,我国的信息技术取得了飞速的发展,物联网、大数据以及人工智能等技术不断地涌现,而且已经融入到了社会的各个行业中,这给我国的传统行业打进了一股全新的助力,我国的物流行业也不例外。基于计算机视觉以及智能优化算法为代表的全新技术已经融入到了我国物流业,促进我国物流行业向前的快速发展。由于物流仓储安全管理对物流行业有着重要的意义,伴随着电子商务与全新技术的不断发展,对物流仓储安全管理有了全新更高的要求,智能化与现代化的物流仓储安全管理应用而生。本文将探讨计算机视觉在物流倉储安全管理中的应用[1]。

1  计算机视觉

计算机视觉的概念是将视频以及图像中的重要符号或者数值提出出来,并充分分析这些信息,最后进行目标的检测、识别以及跟踪等。简单来讲,计算机视觉就是让计算机看到现实生活中的图像并理解这些图像[1]。在20世纪50年代,计算机视觉出现,随后被应用于识别与分析二维图像,例如显微图片或者光学字符[2]。到60年代,研究人员应用计算机程序设计语言实现了二维图像转换成三维结构,并对这些三维结构进行分析。到70年代,麻省理工学的人工智能实验室院开设了由Horn教授主讲的计算机视觉课程,Mart教授(与Horn教授同实验室)第一次提出视觉研究最重要的问题是表示形式(representation)[3]。到80年代90年代,计算机视觉取得了飞速发展,已经形成基于感知特征的全新理论框架,并且慢慢地应用到工业环境中[4]。到21世纪,计算机视觉拥有了许多新的发展趋势,例如计算机图形学与计算机视觉进行了深度融合,许多基于计算机视觉的应用也层出不穷,在安防、物流、交通、医疗、机器人上计算机视觉技术拥有了各种各样形态的应用[2]。

一般来讲,目标跟踪问题是计算机视觉领域的基本为题之一。它的任务是在确定目标最开始状态下,不断地估算下面的连续帧中的图像序列的轨迹。在众多实时视觉领域中,目标跟踪有着非常重要的作用,尤其是针对物流仓储安全管理,目前,目标跟踪模型大体上可以分为生成式与判别式。生成模型主要是根据目标的表现特征,形成固定的模型,然后以模型为条件进行最小化模式匹配,用来寻找最合适的匹配窗口[3]。L1 APG(Accelerated Proximal Gradient, APG)是一个典型的生成式模型跟踪算法[1],它应用字典稀疏表示候选目标,将重构误差最小并且具有系数最稀疏的候选目标作为跟踪结果。判别式跟踪模型就是把将跟踪问题化为二元分类,利用训练数据训练分类器,并在背景中区分目标。一种比较经典的跟踪算法是KCF(Kernelized Correlation Filters)[2],其主要应用岭回归模型,并将引入的循环结构的模板进行傅里叶变换,由于没有对岭回归中的矩阵求逆,这极大地提升了跟踪的效率以及速度。基于CF(Correlation Filter,相关滤波)的目标跟踪算法再近些年受到了广泛的关注,它的计算效率以及竞争效果凸显了极大的优势。CF加入傅里叶变换,进而实现了降低计算量的效果,这种思想产生了很多具有特点的的跟踪算法,例如带有多通道特征的KCF跟踪算法。在2016年,Martin Danelljian提出了以相关滤波算法为基础,以CNN(ConvolutionNeuralNetuork,卷积神经网络)+HOG+CN作为特征组合,这种方法极大地降低了特征维度,应用原来特征的子集,实现了特征提取的简化,避免了滤波器冗余[3]。但是基于CF的目标跟踪仍然有一些缺点,例如手动抽取特征的方法,其无法捕捉目标的语义信息,又例如缺乏训练数据。为了克服上述问题,一些研究人员引入了深度卷积特征,尽管该方法[4]可以取得一定的效果,提高了鲁棒性,但无法抓取或者跟踪实时目标。本文针对抽取CNN特征的计算量大的问题,将改进的CNN算法与相关滤波器融合,并引入FFT(Fast Fourier Transform,快速傅里叶变换),实现计算量的降低[4]。

2  相关滤波

一般来讲,相关滤波器就是一种学习判别分类器,主要经过搜索场景图的最大响应值判定目标对象。简单来说,在选定的场景中,对相应的背景响应较低,对感兴趣的目标响应较高。亦可以经过单个通道信号形成多通道的图像或者数据的方法或方式,其可以简化符号。但是在实际的操作过程中,不只是单单只处理一维单通道的图像,而是更多地处理梯度方向直方图(HOG)与多种颜色的图像(R、G、B的3个通道)。

将f作为MXN的训练信号,训练样本为全部的循环移位的f。fm,n∈{0,1,…,M–1}×{0,1,…,N–1}作为移位样本,是高斯函数,δ是核大小。具有相同尺寸的f的相关滤波器h为。

总体来说,相关滤波跟踪算法灵活的运用循环矩阵的偏移产生分类器的一些训练样本,这些样本矩阵拥有了循环矩阵特点,易于将矩阵问题的求解变化为傅里叶域内求解计算量很低的向量点积的问题,这极大地降低了算法的计算量。经过大量计算得到了效果最优的分类器,目标新位置就是最大响应值处的位置,最终实现了快速检测目标,并且应用新的目标位置更新分类器。相关滤波目标跟踪算法一般采用固定的目标尺度,但是目标被遮挡、目标尺度产生变化或者目标丢失时,没有相应的方法或者措施处理上述问题。为了优化相关滤波器模块,本文提出了基于相关滤波器的对称网络结构,其是基于CNN的多域学习框架,从某特定域中,获取到共享有用的表达,分离出和域无关的表达[5]。系统框架图如下。

3  相关滤波以及相关滤波网络

如图1所示,该方法应用了基于多域学习的框架网络,并融入了x以及相关运算操作的相关滤波器模块。上述变化的公式如下。

在上述公式中,表示搜索区域,表示目标区域,fp表示学习率为p的CNN。

CF模块ω=ω(x)的计算,实现了从训练的特征图x中获取标准的CF模板,进而解决了傅里叶域中的岭回归问题[2]。其中,两个标量参数是s(权重)与b(偏差)是2个,它们让分数范围在逻辑回归中更加合适。

一个较大规模的基于上下文区域图像的相关滤波器对于训练过程是很重要的。增添了最小二乘的思想,虽然取得了良好的效果,但这会把CF的边界问题引入到网络中,所以增加了Crop层[6],并保留中间的一部分。该网络前向传播添加了基于CNN特征的CF跟踪器,该是此前的算法无法实现端到端的训练,本文提出了一种可以实现端到端训练CF的方法,简单来讲,就是在CF中的模板中输入导数,实现CF的端到端训练[5]。

4  卷积神经网络

卷积神经网络是一种多层神经网络,擅长处理图像特别是大图像的相关机器学习问题。

卷积网络通过一系列方法,成功将数据量庞大的图像识别问题不断降维,最终使其能够被训练。经典的卷积神经网络主要包含池化层、卷积层、全连接层、池化层以及Softmax回归层。卷积层是CNN网络中非常重要的层结构,通过它获得特征图,其图的质量直接影响后续层的处理。简单来讲,卷积层应用前一层的特征图和卷积核进行局部连接,得到图像的局部特征,最后通过计算共享权值得到新的特征图。池化层又叫做下采样层,任务是承接卷积层,主要是对卷积层后的一些特征图进行相应的特征降维,进而降低了计算量以及网络的复杂度。全连接层又叫做特殊的卷积层,与卷积层不同的点,就是全连接层中一个个神经元和前一层中全部神经元进行连接,它的作用是维度变换,简单来讲,就是上一层高维度矩阵数据转化为低维矩阵,然后进行整合与提取有一定鉴别能力的特征[6]。

在计算机视觉方面,CNN已经取得了良好的效果并且得到了廣泛应用。文献7应用规模较大的的数据集训练CNN以及高效的GPU,最终实现了图像分类,提高了性能[7]。2018年,哈尔滨工业大学通过在DCF (Discriminative Correlation Filters)框架中加入时间与空间正则化,提出STRCF(Spatial-Temporal Regularizen Correlation Filters)算法,该方法在相关滤波跟踪领域已取得了不错的成绩[8],基于在线PA的方法不但可以接近于多幅训练图像上的SRDCF(Spatial Regularizen Discriminative Correlation Filters)并且在外观变化较大的情况下更具鲁棒性。

虽然CNN已经取得了很大的成功,但因为缺乏规模较大训练数据,致使跟踪算法无法提升性能。文献[9]提出了一种基于CNN池的学习方法[9],但该方法与手动抽取特征的方法的准确性相比,性能的提高不是很大,并且缺乏训练数据深度网络。文献[10]提出一种新的方法,针对图像分类该方法构建了一个大型数据集上,实现了转移了预训练的CNN [10],但该方法对于跟踪任务与分类任务的区别不是明显[7]。

和现又得一些方法不同,本文提出的算法,应用大规模的视觉跟踪数据,然后预训练CNN,最终取得了良好的效果。

5  多域学习网络

文本中为了训练预训练深度CNN,应用了多域训练的网络结构(Multi-Domain Network, MDNet)[5],MDNet就是指将一种来自多个多个领域和域信息的训练数据应用到学习过程中的学习方法。在自然语言处理中多域学习已经得到了广泛应用。但在计算机视觉,多领域学习进行的讨论比较少,例如Duan等人将域加权组合用于视频概念检测的Hoffman与SVM等,进而提出了对象的混合变换模型分类。

MDNet分为特定域层与共享层。特定域层对一类物体都有一个二分类层,用来区分背景与前景。共享层主要是用来学习一般的物体表征。网络主要包括了接收输入的RGB类型图像,它有5个隐藏层(包括了2个全连接层与3个卷积层)。最后相对应K域,一个全连接层主要通过K个分支(fc61—fc6K)(训练序列)。卷积层则是对应到VGG-M里的网络部分,特征图尺寸主要通过输入尺寸进行一定的调整,它后面的2个全连接层对应了512个输出单元。为了用于区分每个域的背景与目标,每一个K支包含了带有叉熵损失分类器一个二进制分类层。fc61—fc6K特定领域层以及前面的层共同作为共享层。MDNet网络拥有很多优点,例如与通常的识别网络相比,网络体系规模更小,应用了一些专门的跟踪数据来训练,并且为了有效地区分背景和目标,对于同一类物体进行的特定域分类。

6  跟踪算法

网络本身主要是用来仅衡量两个图像块之间的相似性,并在线跟踪评估网络前向传播来。为了更好的将此中网络用到图像的目标跟踪中,应与跟踪器逻辑程序紧密结合。该算法主要应用简单的跟踪算法进行评估(相似函数的实用性)。在线跟踪算法的一些评估主要是应用简单的向前模式进行网络评估。通俗来讲,将最新的一帧的之前的一帧预估的目标位置作为中心,并进行搜索区域的提取,然后将搜索区域与目标的特征进行比较,得分最高的位置就是目标新位置[8]。

7  实验结果与分析

为了验证在智能监控环境下基于相关滤波与卷积神经网络的目标跟踪算法(KCF)跟踪性,实验选择了3段不同背景,不同分辨率环境的视频序列,进行对比实验。数据来源于某电子商务有限公司仓库提取的视频信息,其具体如下表所示。

為了验证了该算法的可行性,将文本算法与KCF算法分别在上述表1中的三个视频中,进行了测试序列视频上的对比分析,平均值结果如下。

对不同场景的视频序列,KCF算法的跟踪效果是非常不错的。实验结果验证了该算法在场景快速运动、短期闭塞、规模变化以及场景混乱都有一定的鲁棒性,同时改善了对不同跟踪场景适应性的问题,也验证了该算法的可行性。

8  结语

针对物流仓储场景中,因为外界的光线变化、噪声干扰以及场景的复杂情况等,会影响物流目标的检测。基于相关滤波与卷积神经网络的目标跟踪算法可以有效且准确地检测并提取出用户感兴趣的目标,改善了计算机视觉技术在物流仓储空间管理中存在的问题,进而有效识别物品的状态信息与位置信息,实现了仓储空间的高效管理,增强了仓储管理系统的信息化程度,能更好地适应现代物流管理模式下对于仓储空间控制管理的需求[9]。

参考文献

[1]罗海波, 许凌云, 惠斌, 等. 基于深度学习的目标跟踪方法研究现状与展望[J]. 红外与激光工程, 2017, 46(5): 6-12.

[2]周益民, 田玲, 陈文宇. 人工智能专业体系建设探索[J]. 高教学刊, 2020(16): 92-96.

[3]宋长新, 马克. 微课应用于师范类高校计算机教学中的策略[J]. 高教学刊, 2020(16): 106-109.

[4]田崇鑫, 李少霞, 虞钢, 等. 基于机器视觉的激光表面改性质量快速检测[J/OL]. 激光与光电子学进展: 1-11 [2020-06-03]. http://kns.cnki.net/kcms/detail/31.1690.TN.20200601.1729.149. html.

[5]衣俊艳, 杜小鹏. 具有中心移动特性的弹性网络聚类算法研究[J/OL]. 计算机工程与应用: 1-13 [2020-06-03]. http:// kns.cnki.net/kcms/detail/11.2127.TP.20200602.1320.004.html.

[6]Krizhevsky A, Sutskever I, Hinton G. 用深卷积神经网络进行ImageNet分类[C]//NIPS.Curran Associates, 2012年.

[7]Li F, Tian C, Zuo W, et al. Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking[J]. 2018.

[8]LI H, LI Y, PORIKLI F. DeepTrack: Learning Discriminative Feature Representations by Convolutional Neural Networks for Visual Tracking[C]//British Machine Vision Conference. Nottingham, 2014.

[9]赵明瀚, 王晨升. 基于视频的人数识别方法综述[J]. 软件, 2013(3): 18-20+62.

猜你喜欢

目标跟踪计算机视觉卷积神经网络
多视角目标检测与跟踪技术的研究与实现
基于深度卷积神经网络的物体识别算法
危险气体罐车液位计算机视觉监控识别报警系统设计
基于车牌识别的机混车道视频测速算法