APP下载

一种改进的现勘图像分类算法

2016-12-22白小军史天意

西安邮电大学学报 2016年6期
关键词:金字塔高斯尺度

白小军,史天意,刘 颖

(1.西安工业大学 计算机科学与工程学院,陕西 西安710016;2.西安邮电大学 通信与信息工程学院,陕西 西安710121)



一种改进的现勘图像分类算法

白小军1,史天意1,刘 颖2

(1.西安工业大学 计算机科学与工程学院,陕西 西安710016;2.西安邮电大学 通信与信息工程学院,陕西 西安710121)

针对加速鲁棒特征在尺度变化和旋转变化方面表现不够理想的问题,提出一种改进的现勘图像分类算法。根据高斯金字塔模拟人眼由近及远视物且能保持物体尺度不变的特性,对图像提取基于高斯金字塔的加速鲁棒特征,并用词袋模型描述图像。通过训练得到支持向量机分类器,对输入图像进行分类。实验结果表明,改进算法分类准确率有明显提高。

加速鲁棒特征;高斯金字塔; 词袋模型;图像分类

基于内容的图像分类(Content-Based Image Classification,CBIC)算法主要利用形状、纹理、颜色等图像自身的多种底层视觉特征完成分类任务[1]。

在特征表示方面,尺度不变特征转换(Scale Invariant Feature Transform,SIFT)算法有较好的判别性,对于尺度、光照、旋转等变换具有特征不变性,从而获得了广泛的应用,但是该算法计算复杂度高,耗时较长[2,3];加速鲁棒特征(Speeded Up Robust of Features,SURF)算法是针对SIFT特征的改进,效率更高,但在光照和尺度变化方面表现不够理想[4]。在分类模型方面,词袋(Bag of Words,BoW)模型[5]较为常用,已广泛应用于图像分类和视频中的动作识别[6-9]。

针对现勘图像背景复杂、场景多变、拍摄时光照条件和观测角度不同等特点,本文在SURF特征的基础上,结合SIFT特征的优点,利用BoW模型,提出一种改进的基于高斯金字塔的SURF特征(GP-SURF)算法。

1 改进的图像分类算法

检测并提取图像的GP-SURF特征,得到特征向量集,利用BoW模型描述图像,通过训练得到SVM分类器,最后实现图像分类。

1.1 GP-SURF特征的检测与提取

基于高斯金字塔的SURF特征(GP-SURF)的核心思想是在构建尺度空间时摒弃SURF原有的模式,改用高斯金字塔模型。算法步骤如下。

步骤1 构建Hessian矩阵。

假设函数f(x,y),Hessian矩阵H是由函数偏导数组成。图像中像素点的Hessian矩阵的定义为

(1)

对每个像素点,其Hessian矩阵的判别式为

(2)

依据判别式取值的正负便可判别该点是否为极值点。

用图像像素I(x,y)取代函数值f(x,y),选用二阶标准高斯函数作为滤波器,通过特定核间的卷积计算二阶偏导数,便可计算出矩阵H的3个元素Lxx,Lxy和Lyy,则矩阵H可以表示为

(3)

在构造Hessian矩阵前,需要对其进行高斯滤波,以确保特征点的尺度无关性,表达式为

L(x,t)=G(t)I(x,t)。

(4)

L(x,t)是图像在不同解析度下的表示,可以利用高斯核G(t)与图像函数I(x)在点x的卷积来得到,其中高斯核G(t)为

(5)

其中g(t)为高斯函数,t为高斯方差。通过这种方法可以为图像中每个像素点求出其Hessian矩阵,并用Hessian矩阵判别极值点。

步骤2 构建高斯差分金字塔。

定义L(x,y,σ)为一个变化尺度的高斯函数G(x,y,σ)与原图像I(x,y)的卷积(*代表卷积运算),表达式为

L(x,y,σ)=G(x,y,σ)*I(x,y),

(7)

(8)

其中m,n表示高斯模板的维度,(x,y)代表图像的像素位置,σ是尺度空间因子。

构建高斯金字塔的过程为先对图像做不同尺度的高斯滤波,得到S幅图像,将其组合为一组(Octave);然后对每组中的倒数第3幅图像做降采样,得到下一组的第1幅图像,对该图像做不同尺度的高斯滤波,以此类推,从而得到N个图像尺寸依次递减的组。这N个组组合成的模型便称为高斯金字塔。

将高斯金字塔每组中相邻上下两层图像相减,即

D(x,y,σ)=(G(x,y,kσ)-G(x,y,σ))*I(x,y)=

L(x,y,kσ)-L(x,y,σ)。

(9)

以此可以得到高斯差分图像,每个组得到S-1幅高斯差分图像,N×(S-1)幅图像构成高斯差分金字塔,如图1所示。

图1 高斯差分金字塔的构建

步骤3 初步确定特征点。

经Hessian矩阵处理可得多个极值点,将之与其3维邻域的26个像素点比较大小,若为26个点中的最大值或者最小值,则保留并充当初步的特征点。采用与相应尺度层图像解析度同等大小的滤波器检测特征点,如图2所示。

图2 高斯差分金字塔空间极值检测

步骤4 精确定位特征点。

对于步骤3中初步确定的特征点,采用3维线性插值的方法得到亚像素级的特征点,同时去掉一些小于特定阈值的点,最终只保留几个特征最强的点。

步骤5 选取特征点主方向。

为了保证旋转不变性,以特征点为中心,在半径为6S(S为特征点所在的尺度值)的邻域内,统计60度扇形内所有点在水平和垂直方向上的Haar小波响应总和;给这些响应值赋予高斯权重系数,使得靠近特征点的权重大,远离特征点的权重小;把

所有响应相加,形成新的矢量;最后,遍历整个圆形区域,该特征点的主方向由其中最长的矢量方向确定。如此,对所有特征点计算后可得到每个特征点的主方向。

步骤6 构造特征点描述算子。

在特征点周围取一个边长为20S(S是特征点所在组的尺度)且带方向的正方形框,然后将该正方形框划分为16个子区域,统计每个子区域中25个像素的水平和垂直方向的haar小波特征,从而得到该特征点的特征向量。

1.2 BoW模型与图像分类

将 BoW 模型应用于图像识别和分类,可以把图像看作为一个文档,而图像中的关键特征被看作为“单词”,所有训练图像的“单词”集合被称为“视觉词典”。基于BoW模型的图像分类过程主要分为训练和分类两个阶段,如图3所示。

图3 BoW模型图像分类流程

(1)特征提取

采用GP-SURF算法,检测和提取图像中的关键特征点,并将提取到的每一个特征点用特征向量表示。

(2)生成视觉词典

对训练集中的所有图像分别提取特征向量,所有的特征向量集合在一起构成特征向量集;再通过K-Means算法[10]对特征向量集进行聚类,即可获得多个聚类中心,每个聚类中心即为一个视觉单词,所有视觉单词的集合构成BoW模型的视觉词典。

(3)生成视觉单词直方图

对于每一幅训练图像,将其每个特征点都映射到BoW模型的某个视觉单词上,并统计各单词出现的次数,即可生成该图像的视觉单词直方图。由于训练图像的类别已知,按类别将所有训练图像的视觉单词直方图组织起来,形成YML格式文件。

(4)训练SVM分类器

由于SVM为二分类器,所以需要分别针对每一类图像,与非该类图像的集合,训练SVM分类器,得到一系列分类超平面。

(5)分类

分类阶段的前两步和训练阶段相同,首先得到一幅图像的特征向量集,进而得到其视觉单词直方图;第三步通过一系列SVM分类器,计算该图像的视觉单词直方图与训练阶段得到的各个分类超平面的距离,选取距离最大的超平面将该图像分类出来,即得到分类结果。

2 实验结果与分析

对基于GP-SURF特征与BoW模型的图像分类算法进行了实验,实验环境为Core i3-4170(四核、3.70GHz)CPU,8G内存,64位Win7 操作系统。实验的数据集为某省公安厅刑侦局提供的刑侦现勘图像库,该库目前包含500幅图像,分为10个类别,每个类别50幅图像,部分实例图像如图4所示。

图4 刑侦现勘图像库部分实例图像

利用OpenCV提供的库函数进行K-Means聚类,从而构建视觉词典;同样使用OpenCV库函数来实现支持向量机 (Support Vector Machine,SVM)[11,12]的训练和分类,其中以径向基核函数(RBF)作为SVM 模型中的参数[13]。

从每类图像中随机挑选出25幅作为训练图像,同时随机挑选出(N=10, 15, 20,25,30,35)幅作为测试图像(即待分类图像)。为了验证BoW模型的有效性,在相同实验条件下,分别使用SIFT特征、SURF特征和GP-SURF特征作为输入,带入模型中进行训练和分类,实验结果如表1所示。图5为3种特征对于各类图像的分类准确率的统计结果,图6为3种特征在不同数量测试图像下的分类准确率统计。

表1 基于不同特征算法的图像分类结果

图5 3种特征对于各类图像的分类准确率统计

图6 3种特征在不同测试图像数目下的分类准确率对比

由图5和图6可见,本文算法比SIFT特征和SURF特征在不同情况下,图像分类准确率都有明显提高。

3 结语

在SURF特征的基础上,结合SIFT特征的优点,提出了一种改进的SURF特征(GP-SURF),并结合BoW模型,实现了一种改进的图像分类算法。通过刑侦现勘图像数据库,与SIFT特征和SURF特征算法进行对比实验,结果表明,改进算法分类准确率有明显提高。

[1] SCHETTINI C,BRAMBILLAR D,VALSASNA A. Content-based image classification[J/OL]. Proc Spie, 1999, 23(5): 28-33[2016-07-01]. http://adsabs.harvard.edu/abs/1999SPIE.3964...28S.DOI:10.1117/12.373464.

[2] LOWE D G. Object recognition from local scale-invariant features[C/OL]// The Proceedings of the Seventh IEEE International Conference on Computer Vision, Greece Corful:IEEE, 1999:1150-1157[2016-07-01]. http://dx.doi.org/10.1109/ICCV.1999.790410.

[3] LOWE D G. Distinctive Image Features from Scale-Invariant Keypoints[J/OL]. International Journal of Computer Vision, 2004, 60(2): 91-110[2016-07-01].http://www.springerlink.com/content/h4l02691327px768.DOI:10.1023/B:VISI.0000029664.99615.94.

[4] BAY H,TUYTELAARS T,GOOL L V. SURF: Speeded Up Robust Features[J/OL]. Computer Vision & Image Understanding,2006,110(3):404-417 [2016-07-01].http://dx.doi.org/10.1007/11744023_32.

[5] 陈凯, 肖国强, 潘珍,等. 单尺度词袋模型图像分类方法[J/OL]. 计算机应用研究, 2011, 28(10): 3986-3988[2016-07-01].http://dx.chinadoi.cn/10.3969/j.issn.1001-3695.2011.10.106.

[6] WANG C,HUANG K Q. How to use Bag-of-Words model better for image classification[J/OL]. Image and Vision Computing, 2015, 38(C): 65-74[2016-07-01].http://dx.doi.org/10.1016/j.imavis.2014.10.013.

[7] ELSHOURBAGY M, HEMAYED E,FAYEK M . Enhanced bag of words using multilevel k-means for human activity recognition[J/OL]. Egyptian Informatics Journal, 2016, 17(2): 227-237[2016-07-01].http://dx.doi.org/10.1016/j.eij.2015.11.002.

[8] JIANG F, HU H M, ZHENG J,et al. A hierarchal BoW for image retrieval by enhancing feature salience[J/OL]. Neurocomputing, 2016, 175(PA): 146-154[2016-07-01].http://dx.doi.org/10.1016/j.neucom.2015.10.044.

[9] PENG X J, WWANG L M, WANG X X,et al. Bag of visual words and fusion methods for action recognition: Comprehensive study and good practice[J/OL]. Computer Vision and Image Understanding, 2016, 150(1): 109-125[2016-07-01].http://dx.doi.org/10.1016/j.cviu.2016.03.013.

[10] 朱玉全,杨鹤标,孙蕾. 数据挖掘技术[M]. 南京:东南大学出版社, 2006:56-59.

[11] CHANG C C,LIN C J. A library for support vector machines[M].New York USA :ACM Transactions on Intelligent Systems and Technology, 2011:101-106.

[12] CORTES C,VAPNIK V. Support-Vector Networks[J/OL]. Machine Learning, 1995, 20(3): 125-128[2016-07-01].http://dx.doi.org/10.1007/BF00994018.

[13] BASTANLAR Y ,TEMIZEL A ,YARDMC Y. Improved SIFT matching for image pairs with scale difference[J/OL]. Electronics Letters, 2010, 46(5): 107-108[2016-07-01]. http://ieeexplore.ieee.org/stamp.jsp?arnumber=5426976. DOI: 10.1049/el.2010.2548.

[责任编辑:祝剑]

An improved criminal scene investigation image classification algorithm

BAI Xiaojun1, SHI Tianyi1, LIU Ying2

(1.School of Computer Science and Engineering, Xi’an Technological University, Xi’an 710016, China;2.School of Communication and Information Engineering, Xi’an University of Posts and Telecommunication, Xi’an 710121, China)

An improved criminal scene investigation image classification algorithm is proposed to improve the low performance of SURF feature on scale change and rotation. In this algorithm, the Gaussian pyramid is adopted to mimic human being’s watching from the close to distant while keeping the scale invariance, and then the GP-SURF features are extracted from images. These images are described using Bag of Words (BoW) model, then the classifier is obtained by training of SVM. Finally, the classifier is deployed to classify the new images. Testing results show that the accuracy of image classification and its validity are both greatly improved.

SURF, Gaussian pyramid, bag of words (BoW) model, image classification

10.13682/j.issn.2095-6533.2016.06.005

2016-09-21

陕西省自然科学基金资助项目(2015JM6350);陕西省教育厅专项科研计划资助项目(14JK1680)

白小军(1971-),男,硕士,副教授,从事物联网与大数据处理研究。E-mail:bxjem@163.com 史天意(1991-),男,硕士研究生,研究方向为图像处理与模式识别。E-mail:419493449@qq.com

TP391.41

A

2095-6533(2016)06-0024-05

猜你喜欢

金字塔高斯尺度
“金字塔”
财产的五大尺度和五重应对
Great Vacation Places
数学王子高斯
天才数学家——高斯
金字塔是用金子造的吗
宇宙的尺度
从自卑到自信 瑞恩·高斯林
9
室外雕塑的尺度