APP下载

基于遗传算法进行特征选择和权重设置的图像检索

2021-01-12姜雪

关键词:特征选择遗传算法变异

姜雪

(淄博职业学院 信息工程系, 山东 淄博 255314)

基于内容的图像检索CBIR(content based image retrieval),直接利用图像的颜色、底纹、形状等底层图像内容作为检索特征来进行图像检索[1]。在特征提取方面,为了更全面地描述图像信息,提高图像检索精度,需要多提取图像的各种特征,如颜色特征、纹理特征、形状特征、角点特征[2],语义特征[3]等。但实际情况表明,并非提取的特征越多检索效果越好。本文运用遗传算法对提取的图像特征进行选择,旨在去除冗余特征以降低特征的维数,减小计算的复杂性,缩短程序运行的时间,以提高图像检索效率;同时运用遗传算法设置多检索特征的权重,使特征有效融合,以达到更好的检索效果。

1 遗传算法

遗传算法(genetic algorithm,GA)是借鉴适者生存、优胜劣汰的生物界进化规律的随机化搜索方法,由美国的Holland教授于1969年提出[4]。遗传算法从代表问题可能解的一个初始种群开始,种群由经过基因编码的一定数目的个体组合而成。初始种群产生后,根据适者生存和优胜劣汰的原理,一代一代演化出越来越好的近似解。在每一代中,根据问题集中每个个体的适应度大小来选择个体,借助遗传算子按照一定的概率进行交叉和变异,产生下一代种群。这个过程将导致后代种群比前代更加适应环境,最后一代种群中的最优个体经过解码,可以作为解决问题的最优解。遗传算法流程如图1所示。

图1 遗传算法流程Fig.1 Flow chart of genetic algorithm

遗传算法的研究受到了国内外学者的广泛关注,近年来该算法已被成功地应用于工业、经济管理、交通运输、工业设计等不同领域,解决了很多实际问题[5-7]。本文将遗传算法用于图像检索的特征选择和权重设置两个环节,以提高图像检索效率。

2 特征选择

特征选择[8-9]是指从一个初始特征集中选出一些特征组成最优特征子集[10],依据这些最优子集构成检索特征能够使检索结果的评估标准达到最优,使检索过程具有较高的检索效率。本文选用Caltech256数据集和Corel1000数据集,分别提取了图像的11个特征,即RGB、HSV直方图特征、颜色相关图特征、颜色矩特征,LBP特征、灰度共生矩阵特征、gabor小波的3个特征,以及角点的Hu矩特征和灰度共生矩阵特征,采用查准率和查全率作为评价特征子集的标准,通过遗传算法进行特征选择,得到最优特征子集。该最优特征子集作为图像的检索特征,用相对曼哈顿距离[11]进行相似性度量。特征选择的步骤如下:

1)对初始种群的个体进行编码。首先,将提取的n个图像特征对应的特征值进行归一化处理;然后,随机产生n位二进制数作为个体编码,其中1代表选择该特征,0代表不选择该特征[12]。

2)设定初始种群的规模。不同问题采用的初始种群规模各不相同,规模越大所得最优特征子集越接近最优解,但耗时会越多,初始种群的取值一般在30~100,本文将初始种群设定为100个个体。

3)确定适应度函数。基于内容的图像检索旨在提高检索的效率,即在人能够接受的一般时间范围内,尽可能地提高图像检索的查准率和查全率,所以本文适应度函数定义为查准率和查全率之和,其公式如下:

F=Pn+Rn,

4)根据个体适应度的大小,选择算子采用轮盘赌算法进行种群个体的选择,即个体的适应度越大被选择的几率越大,被选择的个体进入下一代种群。

5)在满足一定交叉概率的前提下,依次从种群中抽出两个个体,进行随机位的交叉,交叉概率一般取值为0.4~0.99,本文选取的交叉概率为0.7。

6)在满足一定变异概率的前提下,依次对种群中的个体进行随机位的变异。原来为1,变异为0;原来为0,变异为1。变异概率一般取值为0.001~0.1,本文选取的变异概率为0.05。

7)算法终止条件的设定。算法终止条件的设定有多种,如所求解达到了精度要求或算法达到了最大运行时间等,本文选择的算法终止条件为所求解达到最大的迭代次数100,即从初始种群开始要进化100代。

3 权重设置

依然采用遗传算法,对通过特征选择得到的多个最优特征进行权重设置,使得多个图像特征能够有效融合。具体操作步骤如下:

1)根据特征选择得到的最优检索特征的个数k,首先将这k个特征对应的特征值进行归一化处理,然后进行初始种群个体的二进制编码。假设权重系数要精确到小数点后两位,则每个权重系数至少要编码成7位二进制数[13],k个检索特征的权重系数就要编码成7k位二进制数,即初始种群中的个体为7k位二进制数。

2)初始种群的个数仍设定为100。个体适应度函数与特征选择的适应度函数相同,为查全率和查准率之和。

3)选择、交叉和变异过程均与特征选择的过程相同,其中交叉概率为0.7,变异概率为0.05,种群进化代数为300。

4)编码的解码,是将7k位二进制数解码为k个权重系数。依次将每7位二进制数转化成对应的十进制数a1,a2…,ak,k个检索特征的权重系数为

4 实验及结果分析

本文的实验环境为:Intel(R) Core(TM) i5-4460 CPU @ 3.20 GHz,8.00GBRAM,Windows7操作系统,MATLAB R2016a软件。

实验选用了Caltech256数据集和Corel1000数据集,分为如下四个阶段来进行:

1)提取图像的颜色特征(HSV直方图特征、颜色相关图特征、颜色矩特征)和纹理特征(gabor小波特征中的3个特征)共6个特征,构成的特征向量为190维进行图像检索实验。

2)再提取图像的颜色特征(RGB直方图特征)、纹理特征(LBP特征、灰度共生矩阵特征)以及角点的Hu矩特征和灰度共生矩阵特征共11个特征,构成的特征向量为321维,对这11个特征对应的特征值进行归一化处理,并将其作为检索特征进行图像检索实验。

3)用遗传算法对这11个图像特征进行特征选择,其中初始种群个数为100、交叉概率为0.7、变异概率为0.05、迭代次数为100,将得到的多个最优特征作为检索特征进行图像检索实验。

4)用遗传算法为特征选择得到的最优特征设置权重,其中初始种群个数为100、交叉概率为0.7、变异概率为0.05、迭代次数为300,将得到的权重系数有效融合多个最优特征并进行图像检索实验。

4.1 在Caltech256数据集上的表现

在Caltech256数据集中,选择了Backpack、Bear、Binoculars、Bonsai、Butterfly五个语义类,每类100幅共500幅图像作为数据库图像,从五类中各选10幅共50幅图像作为查询图像,检索结果返回20幅图像。

在实验的第三阶段,通过特征选择得到了gabor小波的2个特征和角点的Hu矩特征共3个最优特征,构成的特征向量为71维;在实验的第四阶段,通过权重设置得到的权重系数为[0.23,0.39,0.38]。

在四个阶段的图像检索中,所得数据见表1,各阶段的检索精度对比如图2所示。

表1 各类图像在四个阶段的检索精度Tab.1 Retrieval accuracy of all kinds of images in four stages

图2 各阶段的检索精度对比Fig.2 Comparison of retrieval accuracy in different stages

从实验数据来看,仅仅增加检索特征并不能使检索精度得到有效改善。如在增加5个检索特征后,Bear类和Bonsai类的检索精度反而降低了,其他类的检索精度略有提升。用遗传算法进行特征选择后,得到了3个最优特征,用这3个特征进行图像检索的精度提高了。当用遗传算法赋予这3个最优特征适当权重之后,检索精度又有所提升。

4.2 在Corel1000数据集上的表现

在Corel1000数据集中,从每类中各选10幅共100幅图像作为查询图像,检索结果返回20幅图像。

在实验的第三阶段,通过特征选择得到了RGB、HSV直方图特征、颜色矩特征、灰度共生矩阵特征和gabor小波(其中1个特征)共5个最优特征,构成的特征向量为118维;在实验的第四阶段,通过权重设置得到的权重系数为[0.21,0.13,0.01,0.40,0.26]。

在四个阶段的图像检索中,所得数据见表2,各阶段的检索精度对比如图3所示。

图3 各阶段的检索精度对比Fig.3 Comparison of retrieval accuracy in different stages

实验数据说明,在增加5个检索特征后,Africa类、Elephant类、Mountain类和Food类的检索精度降低了,其他类的检索精度略有提升。用遗传算法进行特征选择和权重设置后,有效融合了5个最优特征,优化了检索效率。

5 结束语

在基于内容的图像检索中,提取的图像特征越多,虽然对于图像的描述更加全面和细致了,但是并非图像检索的效果就越好。本文对于图像中提取的11种特征,通过用遗传算法进行特征选择后仅仅选出了少数最优特征,降低了特征向量的维度,而检索精度却提升了,这充分说明在特征提取后先进行特征选择是十分必要的;而当用遗传算法进行了权重设置后,检索精度又有了提高,这也说明了对多个特征进行有效融合同样很重要。同时要注意到,经过特征选择,各类图像检索精度的提升幅度各不相同,如本文中Bear类图像提升的幅度就比较小,如何进一步优化特征选择算法,以使各类图像的检索精度都有效提升,将是今后工作的重点。

猜你喜欢

特征选择遗传算法变异
基于改进遗传算法的航空集装箱装载优化
基于改进遗传算法的航空集装箱装载问题研究
基于遗传算法的高精度事故重建与损伤分析
变异
物流配送车辆路径的免疫遗传算法探讨
基于智能优化算法选择特征的网络入侵检测
故障诊断中的数据建模与特征选择
reliefF算法在数据发布隐私保护中的应用研究
一种多特征融合的中文微博评价对象提取方法
变异的蚊子