APP下载

基于深度学习的织物图像检索系统研究

2022-05-18刘瑞昊于振中

棉纺织技术 2022年5期
关键词:织物准确率检索

刘瑞昊 于振中 孙 强

[1.江南大学,江苏无锡,214122;2.哈工大机器人(合肥)国际创新研究院,安徽合肥,230601]

在纺织行业中,检索织物图像的工作一般是依赖个人经验查找完成的。此种策略不仅耗费大量的人力、物力,而且在速度和准确率上都有人为的主观性,不能满足用户对检索到相同或类似图片的实时性和准确性要求[1]。市场上存在检索图片的方法和系统,但是不完全适用于织物图像的检索需要,仍需要较大的改进。

针对图像检索领域,主要有两方面技术:基于文本内容的检索(Text-based Image Retrieval,TBIR)和基于内容的图像检索(Content-based Image Retrieval,CBIR)技术[2-5]。TBIR 是通过使用关键字表述图像,将图像检索转化为文字匹配问题,TBIR 需要人工对大量的图片文字标注,耗费许多人力资源,此外人工标注的主观性也会造成错误的检索结果。CBIR 是分析提取图像的视觉或语义特征,结合相似度度量算法,在检索库中检索和目标最为相似的图片,并排序输出,这是目前国内外研究的热点。

在织物图像的检索方面,早期传统的检索方法是依靠手工设计的特征。刘立等[6]提出的简化SIFT(Scale-invariant Feature Transform)算法实现快速图像匹配,但是忽略了色彩信息;YANG L F 等[7]提出在图像检测中使用主颜色矩匹配实现相似度测量,但是运行的速度较慢。有一些研究是将几种特征表示融合,再与图像检索的功能组合起来。JING J F 等[8]提出了一种基于多特征融合的印刷织物图像检索的方法,其中颜色描述表示颜色特征,GIST 表示空间形状特征,此方法提高了检索精度,但计算量大、运行速度不快;ZHANG L J 等[9]提出基于旋转不变性和多尺寸LBP(Local Binary Patterns)的一种织物图像检索方法,其运行的效率也不是很高。近年来,将深度学习的特征表示引入图像检索也有很多成果。段文静等[10]提出了基于深度学习有监督的离散哈希算法,提高了检索的精度;任夏荔等[11]在主成分分析算法的基础上对特征进行哈希编码然后检索,双层检索提高了模型的检索能力;曾凡锋等[12]提出一种改进传统哈希编码的双线性模型网络结构的图像检索方法,在哈希编码的基础上做了进一步改进;王妙[13]提出基于深度学习的印花织物图像检索系统设计,采用哈希算法的粗检索和卷积神经网络的细致检索相结合的分级检索,在提高精度的基础上进一步提高了速度;XIANG J 等[14]提出的卷积神经网络针对织物图片分级检索也取得很好的效果。

虽然在织物检索方面取得了很好的成果,但是通过深度学习的卷积神经网络(Convolutional Neural Networks,CNN)方法用来学习图像特征表示,仍具有明显的优势,而且将其应用在织物图像检索方面,在速度和准确率上仍有较大的提升空间。本研究主要针对当前传统人工整理的库存织物进行检索,通过结合深度学习技术以及分级检索的策略解决市场上存在检索方法难以满足需求,以及检索耗时久、检索精度低的问题,为纺织行业管理提供更加高效的策略。

1 织物检索整体框架

1.1 检索系统模块

织物图像的检索系统是依据实际纺织行业的需求,对织物图像进行特征学习、表示及相似性匹配等,最后完成检索目标。系统有图像预处理、图像模型训练、图像索引库和检索模块4 个部分。图像预处理主要包括图像数据的分类及筛检、图像变换均衡化等操作;图像模型训练中特征表达是检索系统的重点,主要涉及模型的参数设置以及将训练好的合适模型导出;图像索引库是利用训练好的模型对数据库中的图像进行特征提取,并保存起来,构建成图像特征索引库;检索模块是将待检索图像与数据库图像进行相似度匹配,排序后输出检索结果。

1.2 检索整体流程

基于深度学习的织物图像检索系统框架结构如图1 所示。

图1 图像检索整体框架流程

该系统将图像检索技术与深度学习的卷积神经网络相结合。首先利用CNN 对数据库中分好的4 类图像分别进行训练,得到提取4 类织物特征的CNN 模型,将数据库中其他图片根据其类别分别通过4 类CNN 模型提取到各自的特征向量,并根据类别分别保存至对应的特征索引数据库中;然后将待检索图像输入到检索系统中,使用相同类别的CNN 模型对输入的图像进行特征提取,得到能够表达图像信息的特征向量,同时提取出相同类别的图像特征索引数据库,选择欧氏距离匹配算法完成待检索图像的特征向量与检索库中数据的特征向量之间的相似性匹配;最后再将相似度最高的topk检索结果经服务器返回,完成检索过程。

对于少量的待测图片,可采用人工分类,在相同的类中进行检测,由于4 类库中评价标准相同均采用相似度计算,若待测图片在一类中得分很低,可在其他库中再检测,输出相似的图片;对于大量的待测图片,可采用深度学习方法,先训练出分类模型,再将分好类的图片分别放入相应的库中检测,输出结果。

2 试验方法

2.1 试验数据集

织物图片数据集是从纺织厂收集得到的真实织物卡片数据集,获得26 065 张图片,并根据卡片外观将其分为4 类,分别是纯色(11 272 张)、条纹(6 775 张)、网格(6 614 张)、图案(1 404 张),如图2 所示。

图2 4 类图片的划分

为避免因织物类别中数量差异导致训练效果有偏差,保持各类训练数据集数量相同,每类取4 000 张作训练数据集,剩余图片均作为模型的测试集,由于图案织物的数量较少,且图案图像多为不规则图像,而检索主要需要是纹理特征的提取,故随机抽取图案训练集的1 000 张,网格训练集的2 000 张,条纹训练集的1 000 张,制作成训练图案提取纹理特征的数据集。

针对训练数据集,对于每一张原始图420 像素×570 像素的织物卡片,对其随机切割、旋转、对比度、亮度等变化的数据增强用来扩大模型的鲁棒性,获得28 张420 像素×285 像素的大小图片,将其压缩至112 像素×112 像素的大小,并放入同一文件夹,将其视作1 个小类,对于每一大类图片,目标是训练出能够分辨出4 000 张图片差异的特征提取模型,且在同一大类图片中,每张图片之间的差异很小,对模型要求更高。在训练数据集中,以10∶1 比例进行训练,得到模型后,在测试集中测试检索的效果。

针对测试数据,本研究创新处理数据集,使其更加符合实际检索情况,将测试集的每一张原始图片平均分割成2 份,大小均为420 像素×285 像素,一份通过相同类别的特征提取模型得到纹理特征,将其作为检索的索引数据库;另一份均作为待检测图片,通过在相同类别的索引库中,用半张待测图片检索出另一半,测试网络的检索效果。

针对检索的策略,本研究将此图片先分类再检索,以整体的检索时间、topk和mAP作为评价依据。同时研究深度学习模型与数据集的关系,增加对比试验,将4 类图片训练数据集放在一起进行整体训练和分类别验证。

2.2 试验模型选择

特征提取是织物图像检索最重要的环节,每一张图片经过训练的模型提取,得到的特征是独特的,也是其识别的依据,更是后续特征匹配的关键,所以优秀的网络模型和训练策略使得模型更加完善。ResNet[15]网络自出现后,其表现就非常优秀,可作为提高检索识别的模型,通过进一步优化其网络结构,使其更加符合织物这一研究对象,让模型从织物数据中学习到更多有用的信息。本研究使用修改后的LResNet50E-IR 网络,来源于Arcface[16],迁移学习其网络结构,由于检索的目标是织物,检测的重点是角点信息,浅层网络提取的细节特征更符合织物检索的特点,而ResNet 网络随着图层的加深,图像特征逐渐变得更复杂,计算量也会增加,所以使用的模型在ResNet50 基础上做出以下改进。一是替换第一个7×7 的卷积改为3×3 的卷积。二是在Layer5 的卷积层后续相继使用批量归一化层(BN),丢弃层(Dropout),全连接层(FC)和批量归一化层,用来优化输出。三是将批量归一化→卷积层→批量归一化→PReLU→卷积层→批量归一化结构作为残差块,激活函数不使用ReLU,改为PReLU。四是将LResNet50E-IR 的最后两个卷积模块各自减少一层,在保证特征提取能力的情况下,减少模型的计算量,加快模型的训练速度,既可以保证特征提取的能力,也一定程度避免了过拟合问题,增加了模型的鲁棒性。

2.3 基于faiss 索引的图像检索算法

faiss 是Facebook AI 团队开源的针对聚类和相似性搜索库,将高效相似度搜索和聚类方法用来解决稠密向量问题,能够达到任意大小向量集甚至数十亿级别向量的搜索[17]。以检索图片为例,相似度搜索就是在给定的一堆图片中,寻找出与待测的目标最像的K张图片,简称为K 近邻方法[18]。本研究使用faiss 索引,faiss 为每一张输入图片的向量记录一个索引,然后向索引中添加特征向量,search 方法提供搜索,通过相似度计算,输出结果。

2.4 测评方法

2.4.1 相似性计算

相似性度量是用于判断两幅图片的相似程度,通过距离函数计算两幅图像特征向量之间的距离差,距离数值越小意味着两幅图像相似度越高。本研究采用欧氏距离[19],欧氏距离表示为两个坐标点的直线距离。

2.4.2 评价标准

对于查询图像,将其与相同类别的索引库中保存的特征向量进行匹配,欧氏距离测量相应的两个特征向量的距离,并选择相似度排名较高的前k名图像输出[20]。

本研究根据传统的topk思路,重新定义了检索的评估方法Ptopk,计算见式(1)。

式中:对于每一张查询图片Ci,在检索输出排名前k中的图片中,若是与查询图片属于同一张图的两个不同部分,即排名前k数据库中图片的名称含有被查询图片的名称,则认为此图片的对应的topk查询到,Ci=1,否则Ci=0。有m张查询图像,统计对应的topk检索到的准确率。

本研究使用mAP作为综合评价指标,对于m张图片,计算其mAP值,计算公式见(2)。

式中:APi是每一张待测图的前10 个预测图的精度。

3 对比试验和结果分析

3.1 试验环境

使用的计算机为windows10,64 位操作系统,处理 器 为Inter(R)Core(TM)i7-7700 CPU @3.60 GHz、16 G RAM。

在后续的深度学习算法的改进与运行主要是在服务器上进行,服务器使用的是Intel Xeon E5-2680 v3,CPU 运行内存64 G,GPU(RTX2080Ti)显存11 G,开发语言python。

3.2 试验结果和对比分析

使用深度学习框架MXNet[21]训练模型,ADAM[22]被用作优化器,代替了传统的随机梯度下降的优化算法。根据织物检索的实际情况,修改网络层数和参数,调整网络尺寸112 像素×112 像素,迭代次数5 000 次,学习率0.001,batchsize 为64。训练过程中验证集的准确率如图3 所示。

图3 训练过程中准确率变化

对比算法采用多特征融合检索方式的传统算法,即采用基于颜色矩(Color Moments,CM)和要点特征(Gist Feature,GF)相结合方式提取图片的特征,相似度计算采用欧氏距离进行对比,试验的准确率结果如图4 所示。CM+GIST 全检索、CM+GIST 分级检索、深度学习+faiss 全检索、深度学习+faiss 分级检索的Top10mAP值分别为84.45%、86.68%、98.92%、99.22%。

从图4 可见,在传统的多特征融合检索算法中,分级检索策略表现更好;与传统检索算法相比,深度学习分级检索top10 的检索准确率提高5个百分点以上,效果更突出;深度学习结合faiss索引方法的top10 准确率99%左右,虽然基于深度学习分级策略和全检索在准确率相差不大,但分级检索对资源的消耗却是最少的,表1 显示4 种检索方法分别检索完2 614 张网格,2 775 张条纹,7 272 张纯色以及404 张图案图片的时间。可以看出,在同一硬件设备下,传统检索方法耗时较多,资源占用比较大,而分级检索在资源消耗和时间响应上占据优势,在深度学习中也呈现此种情况。

图4 不同算法和策略中的准确率

表1 不同算法和策略时间消耗

理论上深度学习是数据量越多,其训练的效果也越好,但是其缺点也明显,训练时间过长,软硬件资源消耗比较大。由top10mAP的测试结果可知,深度学习+faiss 分级检索的top10mAP比全检索提高了0.30 个百分点,比CM+GIST 分级检索提高了12.54 个百分点,但全检索的资源消耗比较大,耗时较多。

深度学习+faiss 全检索和分级检索详细结果如表2 所示。可以看出,分级检索策略在有纹理类别检索上普遍比全检索好,部分类别top10 的准确率100%,即对于每一张待检测图片,在索引库中输出相似度最高的10 张图中一定有待测图的另一半。有纹理类别分级检索策略表现更好,原因是在训练集数量合适情况下,迭代足够数量,模型尽可能提取到同类图片间的纹理差异,特征表示更有针对性;此外,分类训练和检索缩小了检索范围,所以在正确率和速度上有所提升。但纯色类别可提取的纹理信息等特征较少,主要是颜色信息,在只有纯色的训练集中训练,网络结构不能提取到更多的织物间的差异,容易过拟合,而全检索是将不同类别数据集堆在一起训练,增大了训练集数量和织物的差异性,故纯色的整体训练和检索效果优于分类训练。此外,由于4 类库中评价标准相同均采用相似度计算,若待测图片在一类中得分很低,可在其他库中再检测,按照相似度排序输出检索到的图片。综合考虑经济效益,分级检索策略在图像提取、检索及资源消耗是有优势的。

表2 深度学习中不同策略详细试验准确率结果

4 结语

本研究研发了一种基于深度学习的织物图像检索系统,解决了织物检索耗时久、检索精度低等问题。通过改进后的LResNet50E-IR 网络结构模型迁移学习到织物检索上,利用卷积神经网络强大的特征表示能力,结合faiss 索引进行织物图像检索可以取得很好的效果。同时,运用分级检索的策略,先对待检索图片分类,将分类后的图片输入相同类别的模型进行特征提取,再与对应的特征索引库进行相似度匹配检索,进一步缩短了检索时间,提高了准确率。本系统提出的模型及检索策略在织物图像上的top10 准确率能达到99%,mAP达到99.22%,比传统检索方法分别提高5.00 个百分点和12.54 个百分点。将此先进的网络结构创新应用于纺织行业,能进一步推动纺织行业快速发展。在实际测试中,该系统可达到工程应用的要求,能够进一步推广,下一步可在现工作的基础上进一步优化,在降低运算资源成本同时,研发出实用性更强、速度更快的织物图像检索系统。

猜你喜欢

织物准确率检索
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
多层螺旋CT技术诊断急性阑尾炎的效果及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
CNKI检索模式结合关键词选取在检索中的应用探讨
通过实际案例谈如何利用外文库检索提高检索效率
瑞典专利数据库的检索技巧
英国知识产权局商标数据库信息检索
武汉纺织大学研发神奇织物 可精确感知人体温度
图说纺织