视频监控场景下行人衣着颜色识别

2015-12-05马元元李成龙

安徽大学学报（自然科学版） 2015年5期

马元元，李成龙，汤进，2＊，罗斌，2

（1.安徽大学计算机科学与技术学院，安徽合肥 230601；2.安徽省工业图像处理与分析重点实验室，安徽合肥 230601）

随着平安中国、平安城市的提出，视频监控被广泛应用于各个领域，但是同时也带来了一个问题：海量的视频监控流使得发生突发事故后，需要耗费大量的人力物力去搜索有效信息.若能对视频中的行人进行有效的外观识别，便可显著提高视频监控人员的工作效率，这对特定行人搜索、行人行为解析、视频的检索等问题的研究也具有重要意义.在监控视频中，行人衣着是行人最重要的外观特征，其颜色特征尤为直观，所以准确地识别行人衣着颜色是件非常有意义的工作.而目前国内对于监控场景下行人的研究仅局限于行人检测、行人分割、行人跟踪，对行人外观分析的研究很少，好的行人衣着识别方法更是屈指可数.现阶段，国内外对于照片中的人物衣着识别已有比较成熟的技术［1－8］，识别效果非常可观.但是对高质量的照片中人物衣着识别算法并不能直接应用于视频监控场景下行人的衣着识别，这主要是存在以下两个问题：第一，通过视频监控捕获的视频图像分辨率不高，对于算法中一些精细化的识别难度较大；第二，由于多数监控摄像头安装在室外，所以行人所处的环境复杂多变（如雾天、雨天等恶劣天气环境下光线的变换），这将导致获取的视频图像失真.Yang等［3］利用多图迭代优化分割算法分割出衣着区域，然后构建了一个多图模型，利用多张图像的统计信息来优化标注结果，识别效果很好，但是速度较慢，且要求背景简单，图像清晰.Chen等［4］提出了一种“与或图”的组合图模型对服装的组合和配置进行建模.Yamaguchi等［5］则提出了一种针对时尚照片中人物的衣着识别方法，首先估计人物姿势，再根据人物姿态去识别人物衣着，虽然具有很好的识别效果，但是同样对照片质量有较高的要求，只针对背景简单的单人衣着进行识别.近期，还有一些工作专注于研究如何在高度遮挡的情况下对衣服进行分割［6］，如引入可形变组合模型对衣着的空间关系进行建模［7］，还有些识别方法通过引入基于形状的人体模型［8］来提高衣着分割、识别的准确性.论文针对如何在视频监控场景下有效识别出行人衣着颜色这个问题进行研究，并提出一个简单实用的可应用于视频监控场景下的行人衣着颜色识别算法.其具体思路为：首先结合HOG（histogram of oriented gradient）和Grabcut算法分割出行人区域，然后通过外观划分模型将上下身衣着分开，对上下衣着区域分别取固定大小的小块进行分割，用KNN（K－nearest neighbor）分类器对每个小块进行颜色识别，得出颜色标签，最终通过所有小块投票的方式来决定上下衣着的颜色.该算法的具体流程如图1所示.

1 基于外观划分模型的衣着分割

由于论文针对的是视频监控场景下行人衣着颜色识别，而在视频图像中，行人并不占据图像的大部分.所以首先要确定行人的位置［9］，然后通过分割算法获得行人区域.由于只对行人进行处理操作，所以相应缩短了算法的处理时间，而且避免背景环境的干扰，大大提高了行人衣着颜色识别的准确性.

1.1 基于Grabcut算法的行人分割

梯度方向直方图特征（即HOG特征），是图像识别中最经典也是最常用的特征之一.HOG特征结合SVM（support vector machine）分类器［10］已被广泛应用于图像识别，并且在行人检测中获得了极大的成功.因此运用HOG行人检测，先得到一个大致的包含行人的前景框.具体步骤如下：

步骤1 收集足够的训练样本，手动剪裁出包含行人和不包含行人正负样本，分别约为2 000张.

步骤2 将所有的样本缩放到同样的尺度大小，提取所有正样本和负样本的HOG特征.

步骤3 对所有正负样本赋予样本标签（正样本赋予1，负样本赋予0）.

步骤4 创建两个矩阵，矩阵A存放所有样本的HOG特征（行数为样本个数，列数为HOG特征的维数），矩阵B存放的是矩阵A每行对应的标签（即为一个列向量）.

步骤5 将这两个矩阵放进SVM里训练，最后得到一个适合自己样本集分类的分类器.

步骤6 利用训练好的分类器对行人进行检测.

1.2 行人的分割

Grabcut是Rother Carsten等［11］提出的，它利用了图像中的纹理颜色信息和边界反差信息，只要用户提供一个包含目标的前景框就能得到比较好的分割结果.Grabcut算法主要包括彩色数据建模和通过迭代实现能量最小化，得到分割结果［12－14］.

在通过HOG行人检测画出前景框之后，再用Grabcut算法对行人进行一个精确的分割.具体步骤如下：

步骤1 首先将HOG行人检测出的前景框扩大1倍，取原前景框内的像素为前景，取扩大后的前景框与原前景框之间（蓝框与红框之间的区域，如图2所示）的像素为背景，根据这个初始化，对前景和背景分别构建GMM（gaussian mixture model）模型.

步骤2 求得扩大后的前景框内所有像素的GMM参数，用最大流最小割算法进行分割.

步骤3 返回步骤2，直到能量函数最小化收敛为止.

1.3 外观划分模型

为了准确地描述出行人衣着的颜色，在行人衣着颜色识别前需要对行人上下身进行分割.在以前的监控视频场景下行人衣着识别方法中，前人并没有注意到上下身衣着划分对后期颜色识别的重要性，一般都是按照比例进行划分，这非常不符合实际生活中行人的穿衣类型的多样性，所以识别结果准确率不够高.而对于衣着分割，Hu等［15］提出了一种利用约束三角刨分检测图像中的前景和背景，再结合Graphcuts算法的衣着分割方法，但是该方法存在以下几方面的局限性：第一，文中默认行人衣服为纯色，袖子和身上衣服颜色是一致的；第二，该方法需要检测人脸，若检测失败，将导致衣着分割不准确；第三，该方法基于躯干检测，若躯干检测不准确，也将导致衣着分割不准确.通过对前人的算法进行研究，论文提出了一种基于外观划分模型的衣着分割方法.其具体思路为：得到大致的行人区域之后，首先根据分割行人区域对应的RGB分量求出颜色变化的梯度图，然后对颜色变化梯度图做横向投影分析，得到上下身衣着划分线.为了确保划分的准确性，论文设定了划分位置阈值，以保证划分位置在上下身衣着分界线可能的位置.效果如图3所示.

2 基于KNN和投票方式的衣着颜色识别

在分割出行人的上下身之后，传统的方法是直接对上下装分割区域提取颜色直方图，然后放入分类器中去判别，最后给出识别结果.但由于并没有精确分割出行人衣着，所以提取的颜色直方图并不是单一的仅包含衣着区域的颜色特征，不能反映衣着颜色特征，这将很难保证算法的正确率.故本节运用一种投票思想设计了一种衣着颜色识别方法.

由于上身和下身的面积不同，受光照影响程度不同，所以作者分别收集了上下身训练样本，用KNN分类器分别对上下身着装进行颜色识别.首先，根据第1节的处理步骤，得出行人上身和下身分割图；接着，分别对上下身取固定大小的小块（效果如图4所示）；然后，取小块中每个像素的RGB三通道值，求得RGB均值作为该小块的颜色特征，用KNN分类器识别出每个小块的颜色标签；最后，将每个小块作为一个投票者，每种颜色标签为一个候选者，统计整个上身区域小块的投票，进行投票，颜色候选者中票数最多者便为衣服的颜色标签.

对于小块的大小对实验结果的影响问题，取小块大小为3＊3、3＊5、5＊10做了3组对比实验，不同大小的小块与识别的正确率如表1所示.实验表明小块的大小对最终衣着颜色识别的正确率确有影响（如当颜色为深灰色时，小块过大会将其识别为黑色；当颜色为黑色时，小块过小则会将其识别成紫色）.在论文中，小块大小取3＊5.

表1 小块大小与正确率的关系Tab.1 The relation between the size of path and accuracy

3 实验结果与分析

作者在马路边架设了监控摄像头，收集了2 560个行人上身已知样本和1 135个下身已知样本，总共分为11个颜色种类，分别为红色、黄色、橘色、蓝色、绿色、灰色、咖啡色、白色、黑色、紫色、粉色，每种颜色的上下身样本个数如表2、3所示.为了验证论文方法的有效性，在pentium Dual－core（E5800）3.2GHz的CPU，2GB内存的PC机上，以.NET为实验平台，使用C＋＋编程语言在 Microsoft vs 2010实验环境下完成了验证实验.

表2 各色上身样本个数Tab.2 The number of samples with the upper part of the body

表3 各色下身样本个数Tab.3 The number of samples with the lower part of the body

由于国内外行人衣着颜色识别并不多［16－17］，所以针对监控场景下的行人衣着识别便更少.国内胡江华等做了一些相关工作，主要是针对监控场景下的行人衣着颜色识别，其他的大部分都是针对一些街拍图片，所做的研究大多为了进一步做服装检索［18－19］.所以实验对象不同，运用场景不同.胡江华等［20］首先结合形状约束对Graphcuts分割算法进行改进，使其能够更加完整地分割出图像中的行人，然后在不考虑遮挡的情况下，根据正常人的身高比例直接划分上衣与下衣，然后提取衣着颜色特征，直接放入分类器中去做判别，最终得出上衣与下衣的颜色标签.

与胡江华等人所做的衣着颜色的识别方法相比，论文提出的外观划分模型更为合理且简单有效，不仅仅只是按比例划分.因为上下身衣着的比例是由多种因素决定的，如衣着类型、摄像机角度等，因此，单纯按比例划分很难保证上下身衣着划分的准确性，会影响后面的识别精度.而且论文在衣着识别阶段采用了所有小块投票的方式决定最终衣着的颜色，能够很好地解决部分遮挡对衣着颜色识别的干扰，提高了识别的准确性.表4为对比实验结果.实验表明，论文方法具有更高的准确性.

表4 识别阶段对比Tab.4 The correct rate’s comparision of different algorithms %

由于RGB颜色空间是受光照影响的，因此，在光照变化非常大的时候论文方法的鲁棒性会降低，然而论文使用了不同光照条件下的样本作为训练样本，使得论文方法能够克服一定的光照变化.为了验证该方法的有效性，作者在正常光照条件下对行人衣着进行识别，部分实验结果可见图5（其中：第一行图为原图像，第二行图为识别结果图）.在较为昏暗的光照条件下（这里指傍晚的时候）行人的衣着颜色识别的部分实验结果可见图6（其中：第一行图为原图像，第二行图为识别结果图）.由部分实验结果可以看出，识别精度令人满意.

实验证明，作者提出的方法是有效可行的，在收集的数据集上的上衣正确识别率可达89%，下衣识别正确率可达87%.对于一幅分辨率为90×190左右的行人检测结果图像，行人分割、外观划分和衣服识别的平均耗时为0.45秒.由于处理的图像分辨率为1 980×1 080，因此，行人检测算法（HOG算法）平均耗时较大，为2.55秒.具体的运行时间如表5所示.一方面，论文是针对关键帧的行人衣着颜色识别问题，该运行时间可以满足实际视频监控的需求.另一方面，可以从其他方面进一步改善目前的算法复杂度，同时保证检测精度，如降低图像分辨率以及HOG算法的GPU并行化等.

表5 论文方法各阶段时间Tab.5 The running time in each stage of the algorithm

在视频监控中，一般情况下行人之间存在遮挡的情况，但是论文方法对部分遮挡具有一定的鲁棒性，如图7中，当行人被物体部分遮挡时，只要遮挡不是很严重（约一半以上未被遮挡），识别结果仍然正确，表明了论文方法在部分遮挡情况下的鲁棒性.对于严重遮挡的情况，可以通过视频的时序信息进行检测，根据遮挡结果来决定是否对目标进行识别，这是作者的下一步研究工作.

但值得注意的是，以上的较好的识别都是基于正确的行人分割和正确的上下身衣着划分，二者任意一个出现错误，都会导致识别结果出错.例如严重的错误分割会使得识别结果出错，如图8所示.这也是该方法的局限所在.

4 结束语

作者提出了一种新的视频监控中的行人衣着识别方法.首先通过HOG行人检测算法检测出行人，提取出包含行人的前景框；然后用Grabcut算法分割出行人的轮廓，用上下身划分方法分出上身和下身；最后在上下身取小块，对每个小块的颜色进行识别，然后通过投票的方式计算上下身的颜色标签.

在论文的实验中，行人分割花费时间较大，且上下身划分结果对识别精度影响较大.所以，在未来的工作中，应着重考虑如何建立更加鲁棒的外观划分模型以及有效的分割算法，以提高颜色识别的效率和正确率.

［1］Yamaguchi K，Kiapour M H，Berg T L.Paper doll parsing：Retrieving similar styles to parse clothing items［C］／／Computer Vision（ICCV），2013IEEE International Conference on IEEE，2013：3519－3526.

［2］Kalantidis Y，Kennedy L，Li L J.Getting the look：clothing recognition and segmentation for automatic product suggestions in everyday photos［C］／／Proceedings of the 3rd ACM Conference on Lnternational Conference on Multimedia Retrieval ACM，2013：105－112.

［3］Yang W，Luo P，Lin L.Clothing co－parsing by joint Image segmentation and labeling［C］／／IEEE Conference on Computer Vision and Pattern Recognition，2014：407.

［4］Chen H，Xu Z J，Liu Z Q，et al.Composite templates for cloth modeling and sketching［C］／／Computer Vision and Pattern Recognition，2006IEEE Computer Society Conference on IEEE，2006：943－950.

［5］Yamaguchi K，Kiapour M H，Ortiz L E，et al.Parsing clothing in fashion photographs［C］／／Computer Vision and Pattern Recognition（CVPR），2012IEEE Conference on IEEE，2012：3570－3577.

［6］Wang N，Ai H.Who blocks who：Simultaneous clothing segmentation for grouping images［C］／／Computer Vision（ICCV），2011IEEE International Conference on IEEE，2011：1535－1542.

［7］Hasan B，Hogg D.Segmentation using deformable spatial priors with application to clothing［C］／／The British Machine Vision Conference（BMVC），2010：1－11.

［8］Bo Y，Fowlkes C C.Shape－based pedestrian parsing［C］／／Computer Vision and Pattern Recognition（CVPR），2011IEEE Conference on IEEE，2011：2265－2272.

［9］刘红，周晓美，张震.一种改进的三帧差分运动目标检测［J］.安徽大学学报：自然科学版，2014，38（6）：55－59.

［10］Dollar P，Wojek C，Schiele B，et al.Pedestrian detection：an evaluation of the state of the art［J］.Pattern Analysis and Machine Intelligence，IEEE Transactions on，2012，34（4）：743－761.

［11］Rother C，Kolmogorov V，Blake A.Grabcut：Interactive foreground extraction using iterated graph cuts［J］.ACM Transactions on Graphics（TOG），2004，23（3）：309－314.

［12］胡江华，王文中，罗斌，等.结合形状约束的 Graph Cut行人分割［J］.计算机应用，2014，34（3）：837－840.

［13］朱逸婷，李新华，任慧.一种改进的分水岭分割算法［J］.安徽大学学报：自然科学版，2013，37（3）：56－60.

［14］王徐民，张晓光.视觉注意特征的变分水平集图像分割模型［J］.安徽大学学报：自然科学版，2013，37（1）：61－66.

［15］Hu Z L，Yan H，Lin X.Clothing segmentation using foreground and background estimation based on the constrained delaunay triangulation［J］.Pattern Recognition，2008，41（5）：1581－1592.

［16］Brown L M.Color retrieval for video surveillance［C］／／Advanced Video and Signal Based Surveillance，IEEE Fifth International Conference on IEEE，2008：283－290.

［17］Borras A，Tous F，Llads J，et al.High－level clothes description based on colour－texture and structural features［J］.Pattern Recognition and Image Analysis，2003（1）：108－116.

［18］杨巍.基于图像联合分割与联合标注的服装解析问题研究［D］.广州：中山大学计算机学院，2014.

［19］Van De Weijer J，Schmid C，Verbeek J.Learning color names from real－world images［C］／／Computer Vision and Pattern Recognition，CVPR＇07，IEEE Conference on，IEEE，2007：1－8.

［20］胡江华.静态图像的行人分割及其应用［D］.合肥：安徽大学计算机科学与技术学院，2014.