APP下载

基于轻量化图像分割的物流车辆特征定位研究

2020-07-17樊一超郭艺玲

浙江工业大学学报 2020年4期
关键词:像素点空洞联通

张 烨,樊一超,许 艇,郭艺玲

(浙江工业大学 机械工程学院,浙江 杭州 310023)

近年来随着交通物流的发展,物流园区的规模越来越大,物流车辆停放的智能化管理成为一个重要课题[1]。目前物流车辆管理主要存在车牌识别率低、车型分类难度大、车长测量不准确、空车位识别成本高,车辆状态和行为监测统计困难等问题。物流园区和物流企业因物流车辆识别不准确,每年有可能对物流经济活动造成巨大的损失。例如,德国在这一问题上造成的经济损失达1 100 亿欧元;而美国,已达到了1 300 亿美元;我国物流企业也存在上述问题,给物流企业造成灾难性的损失[2]。

现有的车辆检测系统大多针对的是小区中的轿车车牌识别,对物流车辆的特征提取方面的系统研究较少,理论体系较不完善。因此,笔者研究意义重大,通过对物流车辆分割定位获取的特征识别信息可以有效解决物流工程车辆方面的管理问题,特别是车辆精确定位问题。

1 相关工作

传统车辆特征检测提取可归结为电子标签法、电磁线圈法、雷达检测法等。其中,电子标签法是将储存在电子标签里的产品信息通过阅读器产生的感应电流转换为相应的数据,由中央信息系统对接收到的信息进行读取和解码,它的缺点是需要提前存储目标信息、运作上存在较大的繁琐操作、读取距离有限;电磁线圈法是通过电流变化引起的磁场变化来区分不同类型的车辆,它的缺点是需要埋设地感线圈导致施工破坏路面结构,维修成本高和精度低等;雷达检测法是利用雷达发射出固定频率的微波信号,这些信号在遇到移动车辆之后反射回有频率偏移的微波,根据不同的微波信号,运用普勒原理判断车辆的大小、材料和结构等,这种方法易受到雨雪等恶劣天气的干扰。

近几年来,随着神经元网络的再度兴起,基于卷积神经元网络的视频图像法成为图像分割和识别的主流技术。通过分析布置在车道旁的摄像机拍摄的视频或图像,采用模板匹配、边缘特征提取、梯度直方图等手段,实现对车辆的准确识别。针对车辆的车牌特征识别问题,王忠飞等[3]提出了一种基于字符凹凸轮廓的检测方法,计算效率高,但对噪声抗干扰性较弱;陈波等[4]改进了卷积神经网络模型和参数,加入了Dropout方法解决过拟合问题,减少了参数量,但精度上略有下降;刘震等[5]引入了可变型卷积与可分离卷积结构,提高了模型的泛化性,增强了网络模型特征提取能力,但对复杂场景的目标识别表现欠佳;Long等[6]提出了一种End-to-End的图像分割方法,直接预测图像像素分类信息,做到目标物体的像素定位,但模型存在参数量大、效率慢、分割粗糙等问题。

上述传统的检测方法和视频图像法均存在着操作繁琐、识别精度不高、识别效率慢和分割粗糙等问题。针对上述方法存在的不足,笔者主要基于一种全卷积的图像分割方法,采用深度学习框架,并对基本网络提出了一些优化和改进的措施。改进后的网络结构能够满足实时检测的要求,并且采用空洞卷积的方法扩大了感受野,同时采用通道卷积的方法大大减少了参数量,再通过联通区域和条件随机场的方法,从像素点语义角度对目标对象进行分割,使物流车辆达到精确定位和识别的效果。

2 轻量化的网络结构设计

2.1 多尺度空洞卷积核

空洞卷积[7-8]是针对传统卷积网络在采样过程会降低图像分辨率、丢失信息而提出的一种增大感受野的卷积思路。增大感受野的好处是在深网络中,单位点包含的图像信息越多,感受野越大,若采用传统的卷积和最大池化方法,面临如下难题:

1) 保证信息不丢失情况下,不采用最大池化层,使用较小传统卷积核,则感受野却很小。

2) 增大感受野采用最大池化,则最后的网络层将丢失原始图像信息,图像语义分割精度降低。

3) 增大感受野采用多个较大传统卷积核操作,会使卷积的参数量剧增,内存不足,检测效率减低。

为此,采用的空洞卷积核解决了上述难题,其在基于传统的卷积核上增大了采样率rate,将原始卷积核变得“蓬松”,如图1,2所示。图1为3×3,步长为2的传统卷积核,图2为3×3,步长为2,rate=2的空洞卷积核。

图1 传统卷积核的卷积操作示意图Fig.1 Schematic diagram of convolution operation of traditional convolution kernel

图2 空洞卷积核的卷积操作示意图Fig.2 Schematic diagram of convolution operation of a cavity convolution kernel

这样在保持原有计算量的同时,增大了感受野,使得图像分割的信息足够精确,则基于空洞卷积核的感受野大小计算公式为

(1)

式中:F为当前层感受野大小;rate为空洞卷积核的采样率,即间距数,在图1中可将传统卷积核的rate视为1,而空洞卷积的采样率rate视为2。传统的卷积感受野计算公式为

(2)

同时,空洞卷积还可以借鉴多尺度图像变化的思想,对采样率、卷积核大小进行多样化的处理,以此来适应不同大小目标的特征提取过程。采用多尺度空洞卷积[7]的变体形式,如图3所示。

图3 多尺度空洞卷积核Fig.3 Multiscale cavity convolution kernel

图3中的多尺度空洞卷积[7]的采样率rate分别取1,2,3,卷积的计算方式为

(3)

式中:y[i]为第i个步长位置对应的卷积求和结果;K为卷积核;k为卷积核内参数坐标位置,k∈K;w[k]为卷积核权重;rate为上述1,2,3的对应值。

2.2 通道卷积网络

除了空洞卷积外,采用一种通道卷积的方式对网络进行轻量化操作。由于传统的卷积方式[6]都是一种升维操作,因此可以考虑一开始采用通道卷积[9]的方式来达到特征卷积降维的作用。首先将传统的卷积改成两层卷积,类似于ResNet中的group操作,这种新结构在不影响准确率的前提下缩短计算时间约为原来的1/8,减少参数量约为原来的1/9,并且能够很好地应用于移动端,实现目标的实时检测,模型压缩效果明显,如图4,5所示。

图4 传统卷积方式Fig.4 Traditional convolution method

图5 通道卷积方式Fig.5 Channel convolution

在图4中,对于传统的卷积而言,假设输入的特征通道数为M;卷积核的宽或高分别为Dk或Dk;卷积核的数量为N。则卷积每滑动一次某一位置就有N个M·Dk·Dk的参数量,滑动的步长设置为s,滑动后的图像尺寸大小计算公式为

(4)

(5)

式中:h′,w′分别为卷积后的高和宽;pad为宽高填充的边界。因此,h′·w′卷积后尺寸某一点对应N个M·Dk·Dk的参数量,则可得到总的参数量大小为

N·M·Dk·Dk·h′·w′

(6)

而采用改进后的通道卷积方式,如图5所示,其卷积步骤分为两步:

1) 采用Dk·Dk·M的卷积分别对M个通道进行卷积。采用同样的步长s进行滑动,卷积后的尺寸大小为h′,w′,则该步骤产生的参数量为

Dk·Dk·M·h′·w′

(7)

2) 设置1·1·N的卷积核进行升维特征提取。此时采用步长为1的方式对上述的特征图进行再次特征提取,原有M个通道特征,每一个采用N个卷积核进行特征提取,则计算的总参数量大小为

M·N·h′·w′·1·1

(8)

综合这两个步骤的卷积结构,得到通道卷积最后的参数量大小为

Dk·Dk·M·h′·w′+M·N·h′·w′

(9)

如前所述,传统卷积核的参数量和改进后的通道卷积参数量比较大小为

(10)

从式(10)分析可得:如果采用卷积核大小为3×3,那么通道卷积操作可将参数量降低为原来的1/9,采用的通道卷积方式结构如图6所示。图6中:DW为通道卷积组,表示通道卷积核组成的固定搭配;BN为批量归一化操作,解决在训练过程中,中间层数据分布发生改变的问题;Conv为卷积层操作;RelU为修正线性单元,是一个激活函数。

图6 通道卷积结构Fig.6 Channel convolution structure

2.3 全卷积连接与反卷积网络设计

此外,传统的网络结构最后层采用固定的尺寸大小,以至于输入的图片需事先转化为固定尺寸,不利于物流车辆车长坐标的获取;并且传统全连接层网络存在确定的位数空间坐标丢失,导致图像空间信息失真,未能有效对目标进行精确定位。为解决信息丢失问题,采用如图7所示的全卷积连接方式[10]进行物流车辆的坐标位置精确定位。

图7 全卷积网络Fig.7 Full convolutional network

由图7可知:传统网络的全连接将前部分的卷积网络[b,c,h,w]转为[b,c·h·w],即[b,4 096],再转为[b,cls],其中b表示批次batch size大小,cls表示类别数。而采用全卷积网络是相对于后接1×1的卷积网络,没有全连接层。因此,称为全卷积网络。全卷积的计算方法为

yn[i][j]=fkns(x[si+δi][sj+δj])

(11)

式中:1≤n≤N;yn[i][j]为第n个卷积核的第(i,j)位置卷积后的数值;si为横向的卷积步长;sj为纵向的卷积步长;kn为第n个卷积核;Dk为卷积核宽和高,卷积核大小对应2.2节中的Dk·Dk;δi,δj为该卷积核中的位置,该层总共有N个不同类型的卷积核,0≤δi,δj≤Dk,而卷积核的滑动卷积操作可转为两个矩阵相乘操作,如图8所示。

图8 全卷积矩阵计算Fig.8 Full convolution matrix calculation

(12)

其中:左边的矩阵维度为[N,M·Dk·Dk];右边的矩阵维度为[M·Dk·Dk,w′·h′];卷积后的维度为[N,w′·h′]。右边的矩阵中I为img,其下标依次为像宽和像高,即Iw h。

最后通过反卷积操作,将[N,w′·h′]转为输入时的图像大小,这样可以精确地识别每一像素代表的具体语义信息,且避免了空间信息损失。反卷积的具体操作,相当于卷积的逆运算,即

(13)

因此,通过反卷积和全卷积操作的网络能够适用于任意图像大小尺寸,且能够对图像的每一像素点进行语义分析,达到物流车辆的精确定位识别。

3 基于条件随机场的目标分割优化

3.1 传统图像分割存在的缺陷

传统的图像分割方法有从FCNs[10]的角度出发的“shift-and-stitch”密集输出以及采用插值的方法进行上采样操作,但是这些方法得到的结果比较粗糙。即使采用传统的膨胀、腐蚀处理,像素点的分类结果依然不精确,如图9所示。

图9 传统图像分割的缺陷Fig.9 Defects in traditional image segmentation

为解决该问题,采用一种条件随机场的后处理手段对像素分类的后训练阶段进行干预,使其分类得到更加准确的像素概率值,从而达到对目标像素分类进行精确化定位的目的。

3.2 条件随机场的基本原理

条件随机场[11-13]是一种判别式无向图模型,对于多个变量或者观测序列x={x1,x2,…,xn},即给定目标像素值序列,在给定观测值或标记序列y={y1,y2,…,yn},即类别标签,构建条件概率模型P(y|x)。令G=[V,E]表示结点与标记y一一对应的无向图,yv表示与结点v对应的标记变量,n(v)表示结点v的邻接结点,每个变量yv都满足马尔可夫性,即

P(yv|x,yv)=P(yv|x,yn(v))

(14)

则(y,x)构成一个条件随机场,对其进行建模,使用势函数和团来定义条件概率P(y|x),使得标记变量{yi}以及相邻的标记变量{yi-1,yi}所组成的团势函数最大,通过选用指数势函数,目标函数定义为

(15)

(16)

式中:tj(yi+1,yi,x,i)为两个相邻变量标记位置的转移特征函数,用于刻画相邻标记变量的相关关系以及观测序列对其的影响;sk(yi,x,i)为观测序列在标记位置i上的状态特征函数,用于刻画观测序列对标记变量的影响;λj和μk为参数;Z为规范化因子,用于准确定义概率。

3.3 基于条件随机场的参数设计

针对上述条件随机场[12],结合物流车辆分类模型,采用的能量势函数为

(17)

式中:θi(xi)为一元势函数;xi为观测序列中的像素i的分类标签,即属于物流车辆中的某一类别,则有类别概率P(xi),转化θi(xi)=-logP(xi)。而第二项的成对势函数θij(xi,xj)扩展为

(18)

式中:μ(xi,xj)为标签对比函数,当xi≠xj时,μ(xi,xj)=1,否则μ(xi,xj)=0,用于判断相邻像素点间的距离;wm·km(fi,fj)为高斯卷积核特征函数,用wm权衡相邻像素点特征关系,具体关系函数为

(19)

图10 使用条件随机场前后对比Fig.10 Use conditions before and after the airport comparison

4 目标的精确定位与识别网络模型

4.1 联通区域查找算法的设计

图像联通区域[14-16]查找方法较多,有像素点标记法、线段标记法等。其中像素点标记法又分为区域增长法、顺序扫描法、递归标记法。线段标记法主要为游程标记法。而像素点标记法最常见,将每一类别的物流车辆的预测结果转化为二值图,通过联通区域标号进行查找。设像素点f(x,y)其左右上下坐标分别为f(x-1,y),f(x+1,y),f(x,y-1),f(x,y+1),则联通区域标号merge(x,y)在4 领域扫描,经过f(x,y)点时已扫描左、上位置f(x-1,y)和f(x,y-1),因此可通过判断merge(x-1,y)和merge(x,y-1)来确定f(x,y)的联通性,具体的判别式为

1) 表明与左领域相联通的判断条件:当f(x,y)=f(x-1,y)且f(x,y)≠f(x,y-1)时,merge(x,y)=merge(x-1,y)。

2) 表明与上领域相联通的判断条件:当f(x,y)=f(x,y-1)且f(x,y)≠f(x-1,y)时,merge(x,y)=merge(x,y-1)。

3) 表明与左、上领域相联通的判断条件:当f(x,y)=f(x-1,y)且f(x,y)=f(x,y-1)时,merge(x,y)=merge(x-1,y)=merge(x,y-1)。

4) 表明与左、上领域不联通的判断条件:当f(x,y)≠f(x-1,y)且f(x,y)≠f(x,y-1)时,merge(x,y)=NewLabel新的联通标号。

设立一个一维数组common,其下标为临时联通区域标号merge(x,y)的值,merge(x,y)的值代表某个共同联通区域标号,即像素点f(x,y)的共同联通区域标号common(merge(x,y))。扫描二值图类别图像,具体流程为

1) 当出现当前坐标点f(x,y)≠f(x-1,y)以及f(x,y)≠f(x,y-1)时,表明像素点f(x,y)属于新的联通区域,数组common新增一个,并且记录common(merge(x,y))=merge(x,y)。

2) 当出现当前坐标点f(x,y)=f(x,y-1)以及f(x,y)=f(x-1,y),还需要比较临时联通区域标号merge(x-1,y)和merge(x,y-1)的值:(1) 若出现merge(x-1,y)=merge(x,y-1)情况,则merge(x,y)=merge(x,y-1);(2) 若出现merge(x-1,y)≠merge(x,y-1)情况,则当common(i)=common(merge(x-1,y))时,有common(i)=common(merge(x,y-1))。

3) 当出现当前坐标点f(x,y)=f(x,y-1)以及f(x,y)≠f(x-1,y),则表明与上领域联通,记录merge(x,y)=merge(x,y-1)。

4) 当出现当前坐标点f(x,y)=f(x-1,y)以及f(x,y)≠f(x,y-1),则表明与左领域联通,记录merge(x,y)=merge(x-1,y)。

经以上步骤后,合并所有联通区域,得到每一类别的联通区域,可对目标物流车辆作像素点分割定位。

4.2 最小外接四边形的精确框定

在分割基础上,采用了最小外接四边形的方法[17-18]将目标进行框定,这样有利于计算物流车辆相应的宽高像素信息。其中物流车辆定位的最小外接四边形计算流程为

1) 将上述分割图像每一类别转为二值图像,寻找其近似多边形轮廓。

2) 多边形轮廓由每一系列点组成,找到离散点中y坐标最大,x坐标最小的点记为A点。

5) 以此类推,直到找到A点,从而得到多边形P。

6) 以P为凸边以旋转法计算每一次旋转的面积,得到最小面积,即最小外接四边形,记录最小外接四边形的高度和宽度。

5 实验结果与分析

5.1 轻量化的网络结构

从物流园区采集了厢式货车、牵引式货车、自卸车、罐式车四种类型的物流车辆,将其划分为训练集8 000 张,每一类别2 000 张,测试集4 000 张,每一类别1 000 张。搭建的轻量化和条件随机场模型网络结构如表1所示。表1中:k为卷积核大小;s为步长;p为填充的尺寸;DW为通道卷积组,表示通道卷积核组成的固定搭配;使用了残差求和有利于大网络的梯度传递;各层的激活和批量标准化[17]操作(Batch normalization,BN)有利于加快网络的训练;ReLU为修正线性单元,是一个激活函数。

表1 轻量化网络模型结构Table 1 Lightweight network model structure

5.2 实验结果的比较分析

采用的计算机配置为技嘉NVIDIA英伟达GTX1080Ti显存11 G,1 607 MHz的显卡,对比了优化前和采取笔者结构优化后的模型测试性能,结果如表2所示。表2中的评价指标MPA表示平均像素点准确率(Mean pixel accuracy);MA表示前景面积占标签面积的比值(Mean accuracy);而MIOU表示平均交并与面积覆盖率比值(Mean intersection over union),即预测正确的区域占预测面积和标签面积并集的比值;单位M·pic-1表示训练一张图片所占用的内存,内存单位兆(M);单位ms·iter-1表示每迭代一次需要的时间,时间单位毫秒(ms);采用通道卷积后,占用的显存减少了51%,训练速度提升了78%,测试速度提高了79%,分割定位的各项评价指标中都获得大幅提升,其中MIOU的提升幅度最大。

表2 轻量化分割模型性能对比

此外针对分割粗糙问题,引进了条件随机场优化,提升了分割定位效果。使用条件随机场分割前与使用条件随机场分割后的结果对比,如图10所示。

针对分割图像无明显边框问题,采用了最小外接四边形算法,对二值化后的联通区域进行查找和最小边框限定。得到完美的边框限定结果,如图11所示。无论物流车辆朝向如何,分割定位后的边框位置都能限定在最小矩形框内。

图11 最小外接四边形定位Fig.11 Minimum external quadrilateral positioning

6 结 论

基于轻量化的网络模型结构,最突出的特点是在保证分割精度的情况下,提升模型的分割效率,通过通道卷积的方式减少了模型的参数量;又设置了多尺度的空洞卷积核,合理而简便地提高模型的感受野,增强模型的泛化性;对传统分割方法的粗糙问题进行了条件随机场优化处理,能够满足更精细化的目标边缘分割和内部空洞填补。其次针对分割边界测量问题,通过最小外接四边形进行框定,解决了物流车辆边界框定问题,有利于进一步通过比例方法获取车辆车长和车高等信息。

猜你喜欢

像素点空洞联通
广中江高速全线通车联通10条高速公路
图像二值化处理硬件加速引擎的设计
番茄出现空洞果的原因及防治措施
基于局部相似性的特征匹配筛选算法
风起轩辕——联通五千年民族血脉
如何避免想象作文空洞无“精神”
一张图读懂联通两年混改
微信搭台“联通” 代表履职“移动”
基于像素点筛选的舰船湍流尾迹检测算法
基于canvas的前端数据加密