基于卷积神经网络的灯具商品图像检索

2019-08-13邰瑶陈健美

计算技术与自动化 2019年4期

邰瑶陈健美

摘要：建材商品数字化对有效使用电商平台家居资源具有重要意义，传统分类法未考虑主观特性且大部分特征需人工提取，存在细节特征丢失等问题。提出了一种基于卷积神经网络（简称CNN）的灯具图像分类法，并通过一系列预处理操作丰富数据集，提高图像识别率。检索过程结合卷积层和全连接层特征并融合YOLO算法完成复杂的标签分类任务，效果更加高效准确。

关键字：卷积神经网络;商品图片搜索;YOLO算法;多标签分类任务

中图分类号：TP751.1 文献标识码：A

Research on Lighting Product Image Based on CNN

TAI yao CHEN Jian-mei

（Computer Science and Communication Engineering Department，Jiangsu University，Zhenjiang，Jiangsu 212000，China）

Abstract：The digitization of building materials is of great significance for the effective use of e-commerce platform home resources. The traditional classification method does not consider subjective characteristics and most of the features need to be manually extracted，and there are problems such as loss of detail features. A convolutional neural network is proposed. （CNN for short） luminaire image classification method，and improve image recognition rate by a series of pre-processing operation rich data sets . The retrieval process combines the convolutional layer and the fully connected layer features and incorporates the YOLO algorithm to complete the complex label classification task，and the effect is more efficient and accurate.

Key words：convolutional neural network;commodity image search;YOLO algorithm;multi-label classification task

目前基于CNN視觉特征的图像视频分类/检索、物体/行为估计等计算机视觉问题已成为国内外的研究热点。之前通常采用对人为图像细分类然后贴上对应标签的方法，但随着海量图像数据的爆发式增长，其弊端也愈加凸显出来，关键字表示图像特征过于狭隘，人工标注工作量大且存在主观性上的大量图片作为实验数据集进行实验，能够具有较高的识别能力，在商品识别问题上误差等一系列问题急待解决[1]。而CNN作为流行的深度学习算法[2]，虽在图像识别领域取得了诸多成就，但如果要获得高识别率并获得优良检索结果的例子颇少，但其在电商圈[3]有很大的优势和广泛的（诸如家具、房子、汽车、服装同款搜索等）应用前景。此次我们搜集了某网络科技公司和淘宝网上的大量图片作为数据集，并着手研究设计基于CNN的灯具种类检索方法，较于传统检索方法有更高的检索精度。

1.1 卷积神经网络模型

AlexNet模型是Alex Krizhevsky提出并在2012年ImageNet挑战赛上所使用而名声大噪的一种模型，目前这种深度学习模型正广泛得应用于图像处理领域[4]。如图1所示，我们在此设计出整体检索框架[5]，蓝色箭头指出离线训练过程，黑色箭头指出用户在线查询过程。

1.2 商品图像分类

基于CNN的商品分类实验具体包含数据预处理[6]、网络训练和调参等操作。预处理即对卷积核进行预训练，分成三部分：对图像数据的灰度处理（消除光线影响因素）并对输入数据加入一定概率分布的噪声、PCA数据降维[7]以及进行对图像进行区域扭曲形变。运用流行的随机梯度下降法SGD[8]（Stochastic gradient descent）对卷积核中权值的初始化并使用反向传播算法微调网络参数。这么做优化于随机初始化，可使卷积核特征得到更本质的刻画，同时更易于训练结果的收敛[9]。通过反复的前后向传播，卷积层[10]、全连接层的参数不断得到调整，最终实现网络逼近于最优解[11]。总体分类模型如下：

2 系统搭建

2.1 基于AlexNet卷积神经网络模型

对于分类艰难的灯具来说，只能依据经验选择和设计图像特征，且人为因素对特征的有效性影响很大。传统特征模型在不同的样本库上需要重新设计图像特征而导致其通用性不强[12]。针对以上存在的种种不足，如图3所示在图像分类问题背景下提出了CNN卷积神经网络模型，下图展示包括卷积层、池化层、全连接层和softmax层，最终可获得分类结果。

2.2 构建样本库数据集

样本是由网商（网址：http：//www.maideng8.com/）提供，另从淘宝网采集部分图片得到部分数据，共9种灯具图片，其中70%用于训练，15%用于校验，15%用于测试。为便于建模，每幅图像的分辨率设置为256×256×3。如图4所示，这些类型一般难以用传统人工构造图像特征的方法进行区分，更难以使用简单的浅层学习模型诸如支持向量机、最大熵方法等的分类方法。在分类之前对数据集进行翻转，裁剪，局部変形等数据增强技术，提高泛化能力。首先对灯具的4类语义属性进行分析，其中主要属性有风格[13]（美式、新中式、现代简约式）、类型（吊灯、台灯、壁灯、吸顶灯、落地灯、镜前灯）、形状（圆形、方形、不规则型），和规模（小型、中型、大型）。（注：每一列分别为吊灯，壁灯，台灯;每一行分别为美/欧式，现代简约式，新中式）

2.3 分类优化

单标签分类[14]在CNN网络中应用很普遍，实验中的图像包含多元语义属性，如各式风格、规格等，这样我们就需要进行多标签多任务学习。而在此采用的标签学习过程：（1）输入图像大小统一为256*256*1，提取该图像228*228的子塊或其镜像作为CNN输入。（2）前四层卷积块的结构参照AlexNet[15]定义的结构组成。（3）全连接层FC2层共享着FC1层的输出，由多个独立平行的子层构成，这些子层分别对应相关的Softmax分类器[16]（类别有新中式圆形小型吊灯、现代简约式方形中型台灯、背景等，类标签的概率一并输出）。

2.4 图像检索优化

YOLO（You Only Lool Once）检测算法应用：先将图像分割成19*19的尺寸相同的矩形框，然后将小框裁剪出来的图像输入到CNN中，CNN能够预测出框内是否有匹配的灯具类型，可输出结果为分类结果向量{Pc，b_x，b_y，b_h，b_w，c1，c2，Pc，b_x，b_y，b_h，b_w，c1，c2}，Pc分类结果的概率，其他变量各自独立，b_x，b_y，b_h，b_w分别为风格、类型、形状，和规模，c的维度等于类的数量，最高几率Pc为最优解，抑制非最大值方法可准确测出位置。在检索出相似的图片中，我们把x图的FC层输出向量f（x）看成是输入图片的编码，我们可以定义x1和x2两图的相似值：d（x1，x2）=||f（x1）-f（x2）||2 若d值越小，则两图片越相似。该算法可以提取感兴趣候选区，而卷积神经网络（CNN）可直接自动去分类和调整这些区域。

一般训练好的CNN网络模型在提取数据特征特征和分类上比较高效完善，而在神经网络中CNN的分类信息和隐含层的特征图均可作为图像检索指标，利用分类模型的隐含层输出作为特征向量进行检索可得到更优效果。在图像检索时，如果直接根据灯具语义属性进行快速检索[17]，但是语义属性往往是抽象属性，并不方便描述一些细致的特征，为兼顾整体特征和细致特征，提高检索精确，我们采取融合卷积层Conv4和全连接层FC1的输出作为特征向量进行检索，其中第四层卷积共卷积核384个，输出是64896维，FC1的输出是4096维，融合后是68992维，之后进行非线性降维处理得到特征。

3 实验结果和分析

3.1 分类

由于同时识别多个属性比识别单属性要复杂，而加入数据增强[18]预处理之后明显提高了网络的分类准确度，实验结果融合卷积层和全连接层比传统CNN结果更加准确。最终分类结果如表1所示：

从表格结果可见，引入融合并行的特征比单独采用各层进行检索，特征存储空间并不是很大，且分类准确率有提高近4%的准确率。（M_CNN代表融合卷积层和全连接层，DM_CNN代表引入预处理）

3.2 检索

实验中检索过程通过使用YOLO算法[19]的方式来缩小检索范围[20]以提高检索运行效率，若输出结果判断失误，则检索结果出错。而且对于分类准确率不高的语义属性如灯具规模等，为规避这些冗余的特征提取操作，所以可直接进行忽略[21]规模这个语义属性。在整个检索过程中，我们可以看到检索结果不仅体现了全局信息，而且对于局部的纹理，图像的亮度等也进行了有效识别。检索结果如图5所示，包含了美式吊灯、现代简约吊灯和新中式吊灯。

4 结论

提出了一种基于卷积神经网络的用快速检索灯具的优化算法，为适应多个属性判别，采用了复杂的多标签分类，预处理可优化提高增强特征提取准确率。而对于图像检索问题，使用融合卷积层、全连接层输出的特征向量和YOLO算法可以使得分类更为准确，同时保留了灯具的整体和局部信息，然后比较各图像特征向量间的相似性，从而得到最优检索结果。当然为应对家居建材越来越高的市场要求，人们对灯具智能化的需求也在快速增长，智能家居正处于快速发展阶段、发展前景巨大，而且我们还有许多问题有待进一步研究，比如说根据灯具类型预估出商品价格、根据图像鉴别真假等。

参考文献

[1] 丁治国. RFID关键技术研究与实现[D]. 合肥：中国科学技术大学，2009.

[2] 尹宝才，王文通，王立春. 深度学习研究综述[J]. 北京工业大学学报，2015（1）：48—59.

[3] 程华. 个体差异与消费者接受网上购物--基于杭州样本的实证研究[D]. 杭州：浙江大学，2003.

[4] 余凯，贾磊，陈雨强，等. 深度学习的昨天、今天和明天[J]. 计算机研究与发展，2013，50（9）：1799—1804.

[5] 彭波. 大规模搜索引擎检索系统框架与实现要点[J]. 计算机工程与科学，2006，28（3）：1—4.

[6] 王耀南，李树涛，毛建旭. 计算机图像处理与识别技术[M]. 北京：高等教育出版社，2001.

[7] 党银宁. 基于PCA数据降维和神经网络的能源审计对标评价方法的研究[D].长沙：中南大学，2011.

[8] 周朴，刘泽金，马阎星，等. 随机并行梯度下降算法模拟两路光纤放大器相干合成与实验研究[J]. 光学学报，2009，29（2）：431—436.

[9] 高雪鹏，丛爽. BP网络改进算法的性能对比研究[J]. 控制与决策，2001，16（2）：167—171.

[10] 陈先昌. 基于卷积神经网络的深度学习算法与应用研究[D]. 杭州：浙江工商大学，2014.

[11] 黄文明，魏鹏，梁金华. 基于卷积神经网络的哈希在图像检索中的应用[J]. 计算机工程与设计，2017，38（2）：517—521.

[12] 张丽平. 粒子群优化算法的理论及实践[D]. 杭州：浙江大学，2005.

[13] 张晓龙. 论居室软装饰艺术设计[J]. 才智，2010（22）：184.

[14] 蒋华，戚玉顺. 基于球结构SVM的多标签分类[J]. 计算机工程，2013，39（1）：294—297.

[15] KRIZHEVSKY A，SUTSKEVER I，HINTON G E. ImageNet classification with deep convolutional neural networks[C]// International Conference on Neural Information Processing Systems. Curran Associates Inc. 2012：1097—1105.

[16] 许素萍. 深度图像下基于特征学习的人体检测方法研究[D]. 厦门：厦门大学，2014.

[17] 杭燕，杨育彬，陈兆乾. 基于内容的图像检索综述[J]. 计算机应用研究，2002，19（9）：9—13.

[18] 朱金魁. 人脸识别算法的研究[D]. 哈尔滨：东北林业大学，2009.

[19] 沈军宇，李林燕，夏振平，等. 一种基于YOLO算法的鱼群檢测方法[J]. 中国体视学与图像分析，2018（2）：174—180.

[20] 曾京文，汪庆宝，胡健. 指纹自动识别中的中心点搜索和特征分块抽取方法[J]. 北京工业大学学报，1996，22（4）：115—121.

[21] 徐进，易绵竹. 计算语义学中的语言子系统理论[J]. 解放军外国语学院学报，2014，37（3）：84—91.