APP下载

基于颜色和纹理特征聚类的图像检索

2015-11-28裴新超

山西电子技术 2015年5期
关键词:纹理检索聚类

裴新超

(中北大学计算机与控制工程学院,山西 太原 030051)

伴随着计算机技术特别是数字图像处理技术的快速发展,利用图像的底层物理内容特征进行图像检索的技术随之出现,即基于内容的图像检索(Content-based Image Retrieval,简称CBIR)[1]。

采用单一图像特征(如颜色或者纹理或者形状)描述图像,进行图像检索具有一定的局限性,难以实现检索的准确性[3]。传统的CBIR 算法更多地考虑待检索图像与数据库中图像之间的相似性,忽视图像库内部图像之间的相似性,没有对图像库中的图像进行聚类,无法缩小图像检索的范围,达不到有效地检索。

针对以上缺点,为达到提高检索准确性和有效性目的,本文提出了一种新的综合颜色和纹理特征聚类的图像检索算法(Image retrieval based on color and texture feature clustering,ICTC)。在提取颜色特征方面,利用颜色自相关图考虑了颜色空间信息;在提取纹理特征方面,利用Gabor 小波来描述。二者相结合,利用改进的K-means 进行聚类,让检索在某一类对象中进行,从而保证检索具有较高的准确性和较低的时间复杂性。

1 颜色特征提取

1.1 颜色空间量化

RGB 颜色模型作为与设备相关的颜色空间被广泛使用在图像中。但是RGB 颜色模型与人的视觉感官不相符合。HSV 颜色模型更接近于人的主观认识,能够更准确地体现人眼睛对于颜色的辨知能力,能够更好地适合基于颜色的图像相似度的比较[4]。

基于上述原因,本文ICTC 算法采用颜色模型HSV 作为研究的基本颜色空间,然后对其各个分量进行量化,但是采取非等量标准,色调H、饱和度S、亮度V 量化为8 级,3 级,4 级,量化规则如下:

根据量化后的结果对各个分量取不同值合成一维的特征矢量,即:

式(4)中:Qs、Qv分别是饱和度S,亮度V 的量化级数,取Qs=3,Qv=4,所以式子为:

1.2 颜色自相关图

考虑颜色直方图无法表达图像空间关系的弊端[10],ICTC 算法采用颜色自相关图提取图像的颜色特征,该方法利用颜色对空间的关系,将颜色和空间信息二者有效地联系起来[9]。

假设T 表示一幅图像,将图像T 中的颜色量化为m 种颜色,对于任意某个像素点p=(x,y)∈T,令Tc={p|C(p)=c},表示颜色为Ci的所有像素。

对于图像T 的两种颜色Ci,Cj∈[m],距离d∈[n],颜色相关图的公式表示:

式(6)中,<i,j >的第k 个分量表示颜色为Ci的像素与颜色为Cj的像素之间的距离小于k 的概率。

式(7)中,d 表示像素点P1和像素点P2之间的距离。

颜色相关图考虑任何颜色之间的相关性,所以颜色相关图非常复杂,空间复杂度太高O(m2d)。颜色自相关图(Color AutoCorrelogram)是一种简化的表达,公式表示:

由于颜色自相关图简单的考虑相同颜色像素之间的空间关系,空间复杂度会降低很多O(md)。所以ICTC 算法采用颜色自相关图提取颜色特征。

2 纹理特征提取

纹理特征是描述图像局部结构的特征,是以图像中的局部对不同物体进行区分。因此在检索系统中被广泛应用。

小波变换被广泛地用于描述图像纹理特征方面[8]。其实质是采取分解信号,构造出一些实值函数。通过研究感知系统生理学,发现在捕捉空间频率,空间位置,方向选择性等局部结构信息方面,Gabor 基函数特点与人类大脑皮层单细胞的二维反射区特点相似。因此,在描述图像纹理特征选择用Gabor 滤波器。

Gabor 滤波函数表示为:

式(9)中,w 为高斯函数复频率,σx,σy是相应的x 和y轴的带宽。

通过对Gabor 函数进行尺度的缩放和方向旋转得到滤波器,表示为:

式(10)中,x'=a-m(xcosθ +ysinθ);y'=a-m(-xsinθ+ycosθ);θ=nπ/N。

只有尽可能地提取特征信息,才能达到更好地描述纹理信息以达到区分的目的。这就要求Gabor 滤波器要涵盖全部的范围,而且在频域上不能出现重叠。Gabor 的位置决定于两个参数:尺度和方向。纹理提取的效果要达到最好,就意味着要选取更多的滤波方向,但是滤波器数目的增加,会伴随着出现实时性变差的问题。因此,为了既可以很好地表述图像的纹理特征,同时计算量也不会太大,ICTC 算法在采用Gabor 方法描述图像纹理特征时,选取6 个方向和4 个尺度,构建了由24 个滤波器组成的滤波器组。用这24 个滤波器对图像进行滤波,得到24 幅过滤后的图像,计算这24 幅图像均值和标准差,将二者组合表述图像的48 维纹理特征。

3 图像综合特征

通过颜色自相关图提取颜色特征和Gabor 提取纹理特征[6],为了提高检索的效率,减少图像库的访问,要对图像进行聚类,将96 维的颜色特征和48 维的纹理特征融合生成144 维的综合特征(q1,q2,q3,…,q144),表示一幅图像的综合特征,若图库中包含有Q 幅图像对象,则整个图库图像可以表示为:

4 聚类过程

4.1 K-means 的相关概念

K-means 算法认为类是由距离靠近对象组成,其属于硬聚类算法,相似性采用距离作为衡量指标,即距离更接近的两个对象,二者相似度就更大[2]。

具体过程:

1)初始类心通过任意选择k 个对象来获得。

2)计算每个对象到各个类心的距离,根据最小距离把它归并到最近的类。

3)计算各自新产生的类的平均值,得到各自类新的类心。

4)迭代执行2)到3)直到所有的聚类都不再改变。

4.2 改进的k-means 聚类过程

原始的K-means 算法对初始类心的确定是任意的,即聚类中的所有初始类心是随机产生的,具有不确定性[7]。本文ICTC 算法采用改进的k-means 算法确定初始聚类类心,根据“距离更接近的两个对象,二者相似性更大”的原则,图像特征通过颜色相关图和Gabor 组合获得。具体实现过程如下:

Step1 计算图像库中的所有图像,得到其综合特征。假设图像库中有q 幅图像,每幅图像都各不相同,所以有q 个特征向量,即特征集为x=(x1,x2,x3,…,xq);每个图像的综合特征向量有144 维。

Step2 根据特征集x,计算任意两个特征xj和xk之间的欧式距离:

查找最小L,特征向量xj和xk结合生成组合S1。

Step3 计算剩余的特征与S1的距离,找到距离最小,并加入组合S1。

Step4 重复Step3 直到组合S1中的数目达到聚类平均数为止,组合S1结束。

Step5 在除去组合S1中包含的特征之外的剩余特征,重新找到距离最小的两个特征向量,重复Step2 到Step4,可以得到S2,以此类推可以得到S3,S4,S5,…,Sk。

Step6 计算S1,S2,S3,…,Sk的算术平均数,得到的k 个平均数作为聚类的初始类心,设初始类心向量集为W,即W=(W1,W2,W3,…,Wk)。

通过上面过程获取k 个初始类心,然后根据K-means 聚类的具体过程1)~4)对特征向量集x 聚类,生成聚类C,类心W,即C=(C1,C2,C3,…,Ck),W=(W1,W2,W3,…,Wk)。

4.3 聚类性能

为了评价聚类性能,算法采用误差平方和准则函数[5],公式表示:

式中,J 表示迭代过程中所有对象的平方误差总和,随着迭代次数增大,误差平方和J 减小,最终J 收敛于某一个固定值,迭代结束,即聚类结束。

5 图像相似性度量

基于内容的图像检索(CBIR)是根据提交的图像查找在图像数据库中与提交的图像相似的图像。本文采用图像颜色和纹理特征的综合特征描述图像,对图像数据库的图像特征向量集进行聚类,得到聚类C,类心W,即C=(C1,C2,C3,…,Ck),W=(W1,W2,W3,…,Wk)。一次图像检索过程如下:

Step1 获取待检索综合特征q,即图像的颜色和纹理特征相融合。

Step2 计算待检索图像综合特征q 和各个类心Wi之间距离,式子表示:

Step3 根据相似性原理,即距离越小,图像越类似。找出待检索图像相似度最大类Cmin。

Step4 分别计算类Cmin中各个图像综合特征与q 的距离。

Step5 依据距离从大到小排序,返回类Cmin中全部图像。

6 实验结果

本文采用Corel 图像库中的1 000 幅图像,总共10 类,包括汽车,恐龙,花,大象,食物,马等,其中每个分类都包含100 幅图像。为了检验ICTC 算法的有效性,采用查准率P和查全率R 作为图像检索性能的衡量标准,公式如下:

其中N 代表检索返回来的总图像数目,M 代表图像数据库中与用户提交图像有关联图像数目,n 代表检索返回来的与用户提交图像有关联的图像数目。

实验方案:选取一种常见的基于颜色的图像检索算法(CR 算法),一种常见的基于颜色和纹理的图像检索算法(CTT 算法),本文算法(ICTC 算法)从图像数据库中的每类图像中,随机抽取10 幅图像作为待检索图像,对于每次检索,计算每一级查全率下的平均查找率,实验结果如表1。

表1 CR 算法,CTT 算法,ICTC 算法查准率比较

由表1 实验结果得出,当查全率一定的情况下,ICTC 算法的查准率高于CR 算法,CTT 算法。

图1 公交车的检索结果

图2 马的检索结果

图1 和图2 是利用本文ICTC 算法分别进行的一次图像检索的结果。图1 和图2 都返回了20 张图像,图1 检索到17 张相关图像,图2 检索到18 张相关图像。其他两种算法的检索效果就不一一列举了,图3 是本文ICTC 算法与CR 算法,CTT 算法关于查全率和查准率的对比。

由图3 可知,ICTC 算法相比较其他两种算法,具有更好的检索性能,能够达到较理想的检索效果。所以ICTC 算法能够适用于大部分的图像检索。

图3 3 种算法查全率和查准率曲线

7 结束语

针对采用单一特征描述图像进行检索准确度不高,以及没有考虑图像库中图像之间相似度,未对图像进行聚类,导致检索速度不快的问题,提出了颜色自相关图和Gabor 算法相结合聚类检索方法。颜色自相关图考虑了颜色的空间关系;提取纹理特征采用Gabor 变换;二者特征融合能够更好地描图像,采用改进K-means 算法对图像进行聚类,使检索过程在更理想范围内进行,加快检索速度,获得更好地检索效果。实验表明,本文ICTC 算法能获得更好的检索速度和检索精度。

[1]Dahane GM,Vishwakarmas.Content Based Image Retrieval System[J].International Journal of Engineering and Innovative Technology,2012,1(5) :92-96.

[2]吕明磊,刘冬梅,曾智勇.一种改进的K-means 聚类算法的图像检索方法[J].计算机科学,2013,40(8) :285-288.

[3]张鑫,温显斌,孟庆霞.基于颜色特征的图像检索方法研究[J].计算机科学,2012,39(11) :243-245.

[4]李丽丽,孙劲光.基于主色提取和主色集扩充的图像检索算法[J].计算机应用与软件,2012,29(1) :152-154.

[5]谢辉,陆月明,孙松林.基于半监督学习的一种图像检索方法[J].计算机应用研究,2013,30(7) :2210-2212.

[6]常哲,侯榆青,李明利,等.综合颜色和纹理特征的图像检索系统[J].小型微型计算机系统,2011,32(1) :161-164.

[7]陈湘涛,王爱云,谢伟平,等.基于内容图像检索的聚类算法研究[J].计算机应用研究,2008,25(12) :3546-3549.

[8]高燕,胡学龙,李玱,等.基于小波多尺度分析的综合特征图像检索[J].微电子学与计算机,2010,27(4) :21-24,28.

[9]李永芳.基于颜色相关图和纹理矩的图像检索[J].计算机应用与软件,2011,28(10) :38-42.

[10]申海洋,李月娥,张甜.基于边缘方向直方图相关性匹配的图像检索[J].计算机应用,2013,33(7) :1980-1983.

猜你喜欢

纹理检索聚类
基于BM3D的复杂纹理区域图像去噪
基于K-means聚类的车-地无线通信场强研究
使用纹理叠加添加艺术画特效
TEXTURE ON TEXTURE质地上的纹理
基于高斯混合聚类的阵列干涉SAR三维成像
专利检索中“语义”的表现
消除凹凸纹理有妙招!
一种层次初始的聚类个数自适应的聚类方法研究
自适应确定K-means算法的聚类数:以遥感图像聚类为例
国际标准检索