融合多层次特征的服装图像描述方法

2017-01-12魏志强中国海洋大学信息科学与工程学院山东青岛266100

中国海洋大学学报（自然科学版） 2017年6期

桂琳，魏志强，殷波，黄磊(中国海洋大学信息科学与工程学院，山东青岛 266100)

融合多层次特征的服装图像描述方法

桂琳，魏志强，殷波，黄磊
(中国海洋大学信息科学与工程学院，山东青岛 266100)

本文针对现有服装图像特征描述方法不能较好的概括服装特征，致使服装图像检索方法检索性能较低，或依赖文本描述的问题，提出一种融合高层次全局服装特征和中层服装区块特征的特征描述方法。首先，将图像分割成含有相对独立语义信息的片段；再根据片段的纹理、几何和色彩特征将其聚类为具有强语义信息的服装区块；之后提取服装区块的几何分布和色彩特征，与服装图像的全局特征进行融合，构成多层次的服装特征描述向量。采用上述特征对服装进行描述，并以文本描述为输入进行检索实验，结果表明该方法能够有效提高实现对服装类别、穿着场合等信息进行检索。

服装图像检索；全局描述；局部描述；特征融合

随着电子商务的迅猛发展，服装的网络销售逐年提升，现已成为相关行业发展的重要方向。针对服装的自动检索也随之成为新的研究热点。现有的服装检索方案大多依靠服装的文本描述来实现，因文本标签主要来源于人工标注，由于存在主观认识造成差异性，检索结果往往并不理想。基于图像内容的检索方式更符合人类的感知特点，现有的视觉内容检索方案能够较好的针对服装颜色进行检索，但对服装的类别、材质等信息的检索尚不够理想。因此大多方案仍需要部分依赖用户提供的文本描述来缩小检索范围，一方面依然难以避免文本描述所带来的问题，另一方面无法充分发挥基于视觉内容检索的优势。

服装图像检索的主要难点在于如何合理的描述服装的视觉特征，以符合人类的认知。目前已有的研究成果中，服装图像的特征描述方法主要可以分为基于全局特征的描述方法[1-2]，基于局部特征的描述方法[3-4]和基于辅助信息的特征描述方法[5-8]。全局特征描述方法多采用颜色直方图、边缘轮廓特征等统计学特征，计算较为简单，对服装的外形、颜色等特征描述效果较好，但易忽略纹理等细节信息，且对服装的摆放有一定的依赖性。局部特征描述方法关注服装的细节特征，通过Gabor滤波、Radon变换等方法提取服装的局部特征，能够较好的描述服装的花色、褶皱和纺织特性等细节特征，但不能概括服装外形等整体特征。基于辅助信息的特征描述方法融合了全局和局部特征，并用人体结构、深度信息等作为辅助，能够融合更多的语义信息，达到较好的描述效果，但对输入数据具有较为严格的要求：需要从多个角度拍摄的同一服装的图像；或仅限于某一类特定服装，如正装。对于服装图像检索来说，此类描述方法缺乏普遍适用性。

针对上述问题，本文根据人类对服装的认知特点，提出一种综合服装局部区块特征描述和全局特征描述的检索方法。采用基于图的分割方法，将服装图像划分为视觉上能够显著区分的图像片段；对每个片段提取纹理、形状、位置等特征，有效的描述该片段在整幅图像中的地位；再通过聚类方法将服装图像片段整合为具有丰富语义信息的区块；对每个区块提取整体概括能力强的主要颜色特征、几何分布特征和纹理特征。同时对服装整体提取主要颜色特征和轮廓特征作为全局特征。采用区块特征和全局特征两者融合组成服装图像描述，实现了采用主要视觉特点结合中等层次细节的服装描述方式，从而获得了较好的检索效果。

1 方法概述

1.1 视觉认识过程

根据格式塔心理学原理，人类认识事物的过程是从整体到局部的。认识过程中，人类视觉将对象整体分割成多种要素，从中提取有意义的信息，依此进行审美和鉴别[9]。相应的，人类对服装的认识中，同样是先对整体产生本能反应，再对各部分细节进行审视。采用视觉特征来描述这一过程：层次最高的整体(全局)特征首先对人眼产生刺激，如轮廓外形和主要颜色特征；此后，人眼才会对含有设计元素的中等层次的特征进行细致的观察，如衣领、口袋、袖口、腰带、花纹、文字、大褶皱等。

如图1所示，人类视觉能够根据经验能够通过全局特征分辨服装的大致分类；根据中等层次的特征对服装进行进一步的鉴别：如判断服装的款式风格，依此推断服装所适应的场合、季节等。在图像精度足够高的情况下，人类视觉能够进一步通过服装纺织纹理和细小褶皱等中等层次特征判断服装的材质。在人的认识过程当中，每当获取更低层次的特征，便能够提取相应层次的语义信息，并对上一层级的信息进行补充和修正。在图像精度不足的情况下，人眼也能够根据高层次特征和经验对较低层次信息进行推断。

1.2 方法流程

以电子商务系统中的商品图片为代表，常见的服装图像通常达不到高清分辨率，不足以包含服装的低层次的细节特征，但能较好的体现服装的整体和中等层次特征。因此本文主要针对电子商务中的服装图像检索问题，以服装的全局和中等层次特征为研究重点，根据人类的认知规律，提出高层次的全局特征和中等层次的服装区块特征融合的描述方法，方法流程图如图2所示。其中区块特征来源于对服装分割片段聚类的特征提取，在此区块特征的基础上结合服装图像全局特征，能够更好的涵盖服装图像中的语义信息，作为服装外形类别和场合等信息的检索依据，取得较好的效果。

2 本文方法

2.1 服装图像分割和前景提取

基于图像内容分割的描述思路符合人类视觉从局部到整体的认知特点。在图像分割阶段，本文采用了基于图的分割方法，将图像划分为若干在视觉上能明显区分的局部区域。基于图的分割方法将图像像素投射到(x,y,r,g,b)特征空间，将空间距离作为判断相似性的依据，并采用KNN方法将相似像素划分为同一分割区域[10]。其优势在于能够在按照较大粒度纹理分割的同时，较好的保留同一区域当中的细节，符合人类视觉对对象局部的认知特点。同时与J-Seg等基于识别的方法和基于Gabor滤波的方法相比较，基于图的分割方法更易实现，计算过程较为简单，能较快的得到较好的分割效果。

为提高方法效率，在对服装图像进行特征描述之前，本文先进行了前景提取，以去除图像中的非服装部分。因电子商务中服装图像背景大多较单一，本文首先将分割后与图像边缘相接的片段作为背景去除。之后对所有分割所得的片段，依次判断其与其他片段的邻接性，并将所有邻接片段合并，最终保留面积最大的合并片段作为前景，即服装部分。

2.2 服装片段特征提取

经过图像分割和背景去除，得到已经被分成若干片段的服装图像。因为采用了基于图的分割方法，这些局部片段内部属性较为统一，但和服装其他区域的差异较大，本文将其称为服装片段。服装片段大多具有丰富的语义信息，如衣领、纽扣、袖口、腰带、文字、大的褶皱等。由于分割参数设置并非适用图像的所有局部，以及基于图的分割方法的边缘效应，也存在部分过度细分的无意义图像碎块。为了排除无意义分块的干扰，集中获取片段的语义信息，本文根据片段的褶皱、色彩和几何信息，提取了服装片段特征，并采用聚类方法将同类服装片段整合为大的服装区块，从中去除无意义块，并用最具语义信息的区块特征对服装进行描述。

2.2.1 服装片段褶皱和纹理特征根据基于图的分割方法的特点，分割所得的服装片段中包含了细节信息，其中既有褶皱也有纹理，二者的分布能够直接反映服装的花色材质等属性，对判断服装的分类等具有重要意义。对此本文引入Canny算子来检测图像中的边缘线条。在灰度图中，服装图像的纹理边缘和褶皱处往往呈现亮度突变，而Canny算子通过求取局部梯度最大值来获取图像中的边缘[11]，因此能够对纹理边缘和褶皱都保持敏感，且计算效率较高。本文先对Canny边缘图像进行一次膨胀腐蚀操作，再对每一个Canny边缘像素检测其是否与片段边缘近似重合，如果近似重合，则该边缘像素记为边缘；反之则根据该Canny边缘两侧的色度差判断其颜色相似程度，若颜色不相似则将该边缘记为纹理边缘，否则记为褶皱。最终获得的所有褶皱边缘像素数与片段总像素数的比值Vwrinkle，和纹理边缘像素数与片段像素数的比值Vtexture分别作为该片段的褶皱和纹理特征。

2.2.2 服装片段几何特征服装片段的几何特征包括其位置、面积和形状特征。片段位置能够反映服装片段对服装图像整体的重要程度。本文采用服装片段中心对服装图像整体的相对位置(xr，yr)来定义片段的位置特征。

xr=(xs-xcmin)/xcmax-xcmin，

(1)

yr=(ys-ycmin)/ycmax-ycmin，

(2)

其中：服装片段位置特征值(xr，yr)定义为片段中心的相对位置；(xs，ys)，(xcmin，ycmin)和(xcmax，ycmax)分别代表服装包围盒的中心点、左上角和右下角坐标；服装片段的面积特征ar反映片段对服装整体的重要程度，定义为片段面积和服装整体面积的比值。

服装片段的形状特征对片段分类具有重要作用，但服装图像中的同类片段大多呈现类似的形状，向不同方向或对称排列，其形状特征难以精确匹配，且需排除方向因素造成的影响，本文提取图像片段最为显著的形状特征作为描述子。服装片段的形状特征定义为dn的均值μd和δd方差。如公式(3)所示。其中，(xn,yn)为片段边缘第n点的像素坐标，ws和hs分别为片段包围盒的宽和高。

(3)

2.2.3 服装片段色彩特征因服装颜色设计特点，几何上不相邻，但类别相近的片段在颜色特征上也存在一致性，因此片段的色彩特征是其分类的主要依据。因服装片段数量较多，单个片段像素数较少，色彩较为单一，本文分别统计H、S、V三通道的均值和方差，进行归一化后作为服装片段的色彩特征，以提高之后的聚类步骤的计算效率。

2.3 服装局部区块特征提取

服装区块从服装片段聚类得到。将2.2节中片段的纹理褶皱、几何和色彩三类特征组合，得到13维的特征向量。采用k-means方法对所有服装片段进行聚类。结果中的每一类由纹理褶皱分布相似、大小形状类似、位置相近或对称以及颜色相近的服装片段组成。将同类服装片段合并成同一区域后，这些具有统一属性的图像区域称为服装区块。每个服装区块都聚集了服装上某一类别的视觉要素，形成了含有较强局部语义信息的服装组成部分，如同色的花纹、衣领、纽扣、装饰色块等，如图3所示。此外，一些无意义的分割片段也会组成区块，这些区块的产生一方面是由于基于图的分割方法特性，在服装图像边缘所产生的伪像，如所示；另一方面是由于统一分割参数难以对图像的每个局部区域都产生最佳结果，因此易在阴影和边缘等处出现部分过度细分的分割。前者将对服装图像的特征提取产生干扰，因此本文首先将面积小于阈值，且位于服装图像边缘的分割区域排除，不提取其区块特征。在后续算法中将后者与其他服装区块进行合并。

考虑到服装各部分的结构特点，各个服装区块所包含的服装语义信息重要性不同，本文提取服装中几个主要区块的特征，作为服装的整体特征描述：

1.面积最大的区块；

2.剩余区块中含有最小纵坐标的区块；

3.剩余区块中主要分布在服装中部的区块；

4.所有剩余区块。

以上服装区块涵盖了服装的主体和含有主要语义信息的区域。对这些服装区块，本文选取人眼最为关注的几何分布特征和色彩特征作为区块的特征描述。几何分布特征概括服装区块在服装整体中所覆盖的区域，采用X、Y轴上的像素分布直方图作为描述子。色彩特征方面，只要选取几种主要的颜色就足以表达服装区块的主要颜色，因此本文采用了主颜色描述算子[12]来表示其色彩特征。主颜色描述算子的提取步骤如下：

(1)将服装图像从RGB彩色空间转换到HSV色彩空间，以符合人类的视觉感知；

(2)按照H通道32维，S通道和V通道16维统计区块的HSV色彩直方图；

(3)选取其中占百分比最大的N种颜色为主颜色。

(从左至右依此为原图像数据；采用基于图的分割后的图像；Canny边缘；聚类后的区块划分。Left to right: Original images; Segmentation; Canny edges; Clustered areas.)

图4 区域特征提取过程示例
Fig.4 Abstruction of features for local areas

区块的颜色特征向量由颜色向量和对应的百分比组成：Vc={{ci,pi},i=1,…,N,pi∈[0,1]}，其中ci，表示颜色，pi为对应的百分比。

2.4 服装全局特征描述

对于高层次的服装整体特征，最为直观的是色彩特征和服装的外形轮廓特征，因此本文采用主颜色描述算子和主方向梯度描述算子作为全局特征描述子。主颜色描述算子的定义与2.3节相同。对于轮廓特征，本文采用主方向梯度描述算子，提取步骤如下：(1)将去除背景的服装图像转换为灰度图，并进行归一化；

(2)对归一化的图像计算方向梯度直方图；

(3)对方向梯度直方图的每一个block，选取其中占百分比最大的M个方向作为其主方向。

服装图像的外形轮廓特征由每个区块的主方向和对应的百分比组成：Vg={Vgj，j=1，…，K}，Vgj={{gi，pi}，i=1，…，M，gi∈[0,1]}，其中K表示方向梯度直方图中的block个数，gi表示颜色，pi为对应的百分比。

通过融合上述服装的高层次全局特征和中等层次区块特征，构成了服装的多层次的描述方案。最终得到704维的服装特征描述向量，其中共有4组区块特征和一组全局特征，每组区块特征包含64维的X、Y方向像素分布直方图，64维的主要色彩特征；全局特征包含64维的主要色彩特征，和128维的轮廓特征。

3 实验和分析

3.1 数据集

为了验证本文服装描述方案的检索效果，本实验构建了一个服装图片数据集。数据集中共有530张服装图像，其中312张来自搜索引擎和电子商务网站；218张来源于研究人员拍摄的日常服装照片。数据集图像按照服装样式可以分为九类，按照穿着场合可以分为五类，按照服装材质可以分为五类。各个类别所包含的图像数见表1和表2。考虑到真实生活场景中，各类服装的常见程度不同，其中节庆、严肃场合分类的服装，和皮革材质分类的服装占数量较少。

3.2 实验结果和分析

实验在64位Windows 7操作系统，Core i7-4510U，8G内存环境下进行，算法采用C++和Matlab混合编程实现。实验采用分类、场合和材质文本描述词作为输入，并以相应的召回率作为比较依据。因为区块特征对服装信息检索至关重要，本文对仅用全局特征描述和全局特征与区块特征融合两种描述方法进行了对比，对服装样式、穿着场合和材质的召回率分别见表3、表4、表5。图5展示了部分检索结果。

从表3中的结果来看，本文的检索方法对于服装的样式类别检索正确率较高，局部区块信息对提高检索正确率有较为明显的作用，在衬衣、T恤、短外套等具有较为明显的局部语义特征的服装类别上，提升效果更为明显，正确率分别提高3.62%、5.44%和4.28。在样式变化较为复杂的大衣等类别上检索正确率还有待提升。但局部区块特征对于服装场合分类的检索正确率提升显著，可见局部区块特征较好的概括了服装的中等层次特征。通过实验结果还可以看出，对服装的材质检索效果不太理想，通过分析发现，该问题主要是服装图像分辨率较低，图像细节不足以体现服装的材质信息所导致的。

此外，实验中基于图的分割方法与Canny边缘检测算法的参数选择对检索结果有较大影响。图像分割过程中，若分割片段数量过多尺寸过小，则片段不能包含足够的语义信息；反之如果片段过大，则不利于提取含有相对完整信息的部分。根据实验经验，每幅服装图像的最佳片段数量在80到300之间。类似的，对于边缘检测方法，边缘线条太多将混入过多的错误像素点，边缘线条太少则不足以提取片段褶皱和纹理信息的特征。根据实验经验，图像边缘像素数在服装区域像素数的3%到5%时取得最佳结果。

4 结论和展望

本文基于人类视觉认识事物由整体到局部的特点，依此提出了一种融合高层次的全局特征和中等层次的局部区块特征的服装特征描述方法，以此对服装信息进行检索。实验证明，本文的方法能够有效的提取服装的高层次和中等层次的语义特征，对服装样式类别的检索正确率较高，区块特征对服装适用场合的信息检索有明显效果。算法以常见服装商品图像作为输入，对图像分辨率和拍摄背景要求低，能够较好的满足实际电子商务中自动检索的应用要求，具有较好的实用价值。

虽然方法整体效果较好，但对于部分较为极端的服装图像依然存在缺陷，在今后的研究中，将着重改进纹理等特征的提取方法、提高对光照和阴影的鲁棒性，进一步提高算法准确度。同时，由于电子商务场景中服装图像多呈现为正面，因此本文工作主要针对服装正面图像开展了研究，在非正面服装图像的情况下，如何实现高性能的服装图像检索，进一步提高方法的普适性，也将是未来研究的重点。

[1] Tsay I I, Lin C H, Lai T Y. Visual Clothing Search by Shape and Style[J]. Information Technology Journal， 2014, 13(6)： 1001-1013.

[2] Tseng C H, Hung S S, Tsay J J, et al. An efficient garment visual search based on shape context[J]. WSEAS transactions on Computers， 2009, 8(7)： 1195-1204.

[3] Yang X, Yuan S, Tian Y L. Assistive Clothing Pattern Recognition for Visually Impaired People[J]. IEEE Transactions on Human-Machine Systems， 2014, 44(2)： 234-243.

[4] Yamazaki K, Inaba M. Clothing classification using image features derived from clothing fabrics, wrinkles and cloth overlaps[C]. IEEE/RSJ International Conference on Intelligent Robots and Systems. Tokyo： IEEE， 2013: 2710-2717.

[5] Willimon B, Walker I, Birchfield S. A new approach to clothing classification using mid-level layers[C]. IEEE International Conference onRobotics and Automation. Karisruhe： IEEE， 2013: 4271-4278.

[6] Willimon B, Birchfield S, Walker I. Classification of clothing using interactive perception[C]. IEEE International Conference on Robotics and Automation.Shanghai： IEEE， 2011: 1862-1868.

[7] Yan C C, Huang L, Wei Z, Nie J, Chen B, Zhang Y. Finding suits in images of people in unconstrained environments[J]. Journal of Visual Communication and Image Representation， 2014, 25(7)： 1588-1594.

[8] El Khoury E, Senac C, Joly P. Face-and-clothing based people clustering in video content[C]. International Conference on Multimedia Information Retrieval. Philadelphia： ACM， 2010: 295-304.

[9] 龙冠芳. 试论服装视觉中心[D]. 上海：东华大学， 2012. Long G, The research of garment visual center[D]. Shanghai： Donghua University， 2012.

[10] Felzenszwalb P F, Huttenlocher D P. Efficient graph-based image segmentation[J]. International Journal of Computer Vision， 2004, 59(2)： 167-181.

[11] Canny J. A computational approach to edge detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 1986 (6)： 679-698.

[12] Lantagne M, Parizeau M, Bergevin R. VIP: Vision Tool for Comparing Images of People[C]. IEEE International Conference on Vision Interface. Halifax： IEEE， 2003: 1-8.

责任编辑陈呈超

A Retrieval Method for Clothing Images Combining Features of Multiple Layers

GUI Lin, WEI Zhi-Qiang, YIN Bo, HUANG Lei

(College of Information Science and Engineering, Ocean University of Chia, Qingdao 266100, China)

Clothes retrieval methods based on text description (tags) are not satisfying in effectivenessandaccuracymainly because the tags are derived from subjective human description and the cognitive differences are unavoidable. Thus vision features based descriptions are introduced for better retrieval results. Current description methods, mostly using clothes images with single-layer (high or low) features, either fail to describe clothes effectively in retrieval application, or require text tags to narrow down the retrieval range.For the latter situation, tags still bring in the inaccuracy caused by text description. To omit the affect by text and improve the retrieval, a novel method combining high-layer global features and mid-layer blocks’ features is promoted to realize retrieval only by images. The method is based on the global-to-local process human cognition. To obtain the global description of the clothes image in high-layer, the improved histograms of primary color and primary oriented gradients are used to describe the color and geometry of the clothes. To obtain the mid-layer semantic description, local features in low-level are abstracted and combined. Firstly, a clothing image is segmented into visually distinguished pieces with graph-based segmentation, hence each piece holding simplex semantic information different from its background. To describe the piece semantically, improved methods are used to generate the feature vector from the texture, geometry and color features.Secondly,a cluster method is adopted to combine the semantic pieces into blocks based on their visual characteristics. As the converging of the homogeneous semantic pieces, the combined blocks hold enriched semantic information of part of the clothes, containing shape, style, material and so on. The geometric distribution and color features of the blocks are abstracted to describe the block and these features are finally combined with the above-mentioned global features into the feature vector of the image, which is introduced into the retrieval for clothes. In experiment, text descriptions are used as input for the retrieval process, and the results show efficiency in retrieval of three different aspects, and especially high accuracy on search with classification and occasion, which prove the effectiveness and universality of our method.

clothing image retrieval; global descriptor; local descriptor; combined features

国家自然科学基金项目(61402428)资助 Supported by the National Nature Science Foundation of China(61402428)

2014-11-12；

2015-12-11

桂琳(1986-)，女，博士生。E-mail:gui_azure@163.com

TP37

1672-5174(2017)06-146-07

10.16441/j.cnki.hdxb.20140409

桂琳，魏志强，殷波，等. 融合多层次特征的服装图像描述方法[J]. 中国海洋大学学报(自然科学版), 2017, 47(6)： 146-152.

GUI Lin, WEI Zhi-Qiang, YIN Bo, et al. A retrieval method for clothing images combining features of multiple layers[J]. Periodical of Ocean University of China, 2017, 47(6)： 146-152.