基于不变矩和PSNR的相似图像检测工具

2018-05-22胡志伟

实验室研究与探索 2018年3期

谢玲，陆坤，胡志伟

(大连理工大学软件学院，辽宁大连 116600)

0 引言

数字图像处理(Digital Image Processing)技术，是对图像进行去除噪声、增强、复原、分割和特征提取的技术[1]。在计算机硬件、软件和Internet技术高速进步的今天，图像信息的量也随之以一个骇人的速度迅速发展。各行业都逐渐越来越多的开始使用图像信息，这之中有很多重要或者有用的信息。但是这些图像信息太多，过于分散，没有能让他们集中起来的办法，所以空有这些资源，却管理不好，不能让大家都使用。因此，怎样在图海之中，找到需要的，或是感兴趣的信息，对图像信息的检索技术是一个巨大的挑战。

基于内容的图像检索(Content-based image retrieval)技术[2]，是检索技术中的一种以提取图像本身特征为重点的检索方法，是用一种或者多种特征来描述一幅图像，而基于内容的图像检索就是把两张图片的特征提取出来，根据特定的方法进行对比和匹配，使用相似性匹配算法来达到这个目的，很明显，对图像特征的提取就是图像特征匹配的关键环节和条件[3]。基于内容的图像分类的目的在于，使图像具有结构化特性，消除内容的多义性，使人们能够方便地查找并使用这些图像信息，最终实现资源的共享和查询。

1 图像特征提取

图像的特征可以分成两个大类：其一，低层物理特征，即图像的一些视觉特征或者固有属性，低层特征又可以细分为很多种视觉特征，包括颜色、形状和纹理等。高层语意特征主要是对对象的识别和解释，通常需要用到人类知识的推理，比如人对于某个图像的感受等等[4]。所以对于高层语义特征，就得靠人来定义，用人工的标注方法，传统的方法都是如此，也就是指基于文本的检索方法，这个方法很难实现自动化，且太过主观，不利于实现标准化。而与之对比，低层次物理特征的提取显得较为容易，还能将两图像之间的异同点客观的反映出来。最常使用的图像特征有形状特征，颜色特征，纹理特征等等，经过对比测试，本系统采用的是形状特征中的不变矩特征[5]。

1.1 Hu矩的计算

Hu矩是Hu在1962年提出的[6-7]，图像f(x+y)的(p+q)阶的矩定义为

Mpq=∬xpyqf(x,y)dxdy,p,q=0,1,2

在图像处理领域用来描述图像灰度密度的分布情况，进而能够提取特征。其中被用的最多的，物体的0阶的矩用来表示图像的“质量”

M00=∬f(x,y)dxdy

一阶矩(M01，M10)被用来确定图像的质心(XC,YC)，XC=M10/M00；YC=M01/M00；如果改变坐标原点，将其移到XC和YC处，便能够得到图像的位移不变的中心矩。如

Upq=∬[(x-XC)p][(y-Y)q]f(x,y)dxdy

Hu矩的里面一共有7个值，也就是7个不变量，它们各自代表不同的意义，但组合起来，便能够有图像的位置平移、方向改编以及比例放大缩小而不变的特性[8]。

1.2 Hu矩的原理

Hu 矩的7个特征量不会因为图像的位置平移、放大缩小、以及方向的旋转而有所改变，所以是提取图像形状特征很好的选择。

对于Hu 矩的特征，要先对图像进行一次灰度分布统计，在此统计结果之上对图像进行描述，能够从全局出发来描述对象的整体特征[9-10]。

区域f(x+y)的(p+q)阶的矩的定义为

(x,y)

(1)

它对应的中心矩定义为

(x,y)

(2)

一阶(p+q)阶中心矩定义为

(3)

式中：p,q=0,1,…。

γ=(p+q)/2

(4)

下面7个式子就是Hu矩里面的7个不变量，将低阶的中心矩进行归一化操作后，便能得到这7个值，它们共同组成了不变矩的特征，如公式(5)所示。

(5)

它们有不跟随位置平移、方向旋转改变、以及图像放大缩小而改变的特性。

1.3 Hu矩的特征值

提取特征，是在对图像的预处理完成之后，进行分类之前的重要环节，同一个目标，在旋转不同的角度、平移、缩放不同的比例之后，不变矩的值是几乎不会变化的。因此，可用于识别目标，也就是在判断待检索目标是否属于训练样本的同类时，求出待检索目标和已知训练样本的距离，如果在已知类别的一定范围内，则可判定这个待检索的目标为已知样本的相似图像。

因为人对物体形状的变换、旋转和缩放并不太敏感，所以好的形状特征就要做到对变换、旋转和缩放无关，但这也增加了描述形状特征和计算相似度的难度。然而根据人先区分轮廓，再填充局部来识别物体的特点，形状特征依然是图像的检索技术中，主要的一种描述图像内容的方法[11-12]。

2 相似性度量定理

假定A、B、C为任意的n维特征向量，一般来说，相似距离的度量函数会受到以下的4条公理约束：

(1) 自相似公理

d(A,A)=d(B,B)

(6)

(2) 最小公理

d(A,B)≥d(A,A)

(7)

(3) 对称公理

d(A,B)=d(B,A)

(8)

(4) 三角不等公理

d(A,C)≤d(A,B)+d(B,C)

(9)

在实际的应用中，所使用的相似性度量函数并不一定非要完全满足上面所说的4条公理，通常只是满足4个公理中的某一个或者几个。

相似性度量的常用方法是向量空间模型(Vector Space Model)，简单地说，就是把所提取的特征值当作该空间中的一点，已知的特征也是这个空间中的点，那么这两点之间必然有一个距离，距离越小则表示两者越相似，反之差异越大。目前，图像检索中有各种各样的匹配方法，下面介绍最常见的Minkowsky 距离法。

MInkowsky距离是在Lp范数的基础上定义的，表达式为

(10)

该方法根据p值所取值的不同，又可以分为不同的方法。

若p的值取1，L1(A,B)就被叫做Manhattan距离，表达式为

(11)

若p的取值为2，那么称L2(A,B)为Euclidean distance距离，即

(12)

若p的取值趋于无穷大的话，L∞(A,B)就是Chebychv距离了，表达式变为

(13)

本系统所使用的相似性度量方法是曼哈顿距离法。通过提取图像的7个特征值，并和训练样本的特征值进行计算，算出两者距离。

3 图像质量评估方法

图像质量评估，就是对图像的质量进行评价打分，而图像的质量主要就是它的保真度和可懂度，在大量的图像信息中，难免出现一些相似度极高的图像，甚至包含几乎一样的信息，比如拍照时通常会对同一个地方连拍好几张，以便能有足够的选择，那么这样的一堆图片信息就称其为冗余信息，因为数量多并没有什么用处，所以只需选出其中最好的一张，其他的去掉即可，这样就可以将信息进行有价值的筛选。除了筛选之外还可以用其来对图像处理的各环节进行监测检查，因为当对图片进行一系列操作，比如压缩，降噪等等操作后，得到的结果图片与初始图片是必然有一些差距的，所以需要对结果进行质量评估，来确定结果的质量是否符合要求，若符合，则继续往下进行操作，若不符合，则进行改进操作。

与图像的高层特征相似的是主观评价方法，它们都是以人为主体，依靠人的视觉特征进行操作的，也就是说，这种方法需要一定数量的人来对图像进行观察评价打分，然后再综合所有人的结果来打出最终的分数即为质量评价结果。虽说这种方法简单易懂，但实际却非常麻烦，首先人观察一幅图像是要花一定时间的，而且代价也更高，再者，与对特征的手工标注一样，因其是人为的操作，所以如果人受到了不良因素的影响，比如受到了刺激或者太过疲倦，那么对操作结果就会有一定影响，这是十分不稳定的。而与低层特征相似的方法称之为客观评价方法，主体是机器，由计算机进行操作，通过某种方法计算出结果图像与原始图像之间的差异，差异越大，则说明该图像失真越大，质量较低，反之则失真小，质量高。而后者中最有名，也是最典型的方法就是PSNR法[13]。

峰值信噪比(Peak Signal to Noise Ratio，PSNR)可以这样来表述它，等待评价的图像f(x，y)，大小为M×N，初始图像f0(x，y)，大小也是M×N，那么计算图像f的PSNR值的表达式为

(14)

另外一个常用的评价参数是均方误差(MSE)，其表达式为

(15)

则

(16)

式(14)以及式(16)中的fmax是指图像f(x，y)的最大灰度值，如果所需要评价的图像的bit数是n，那么其fmax的值就是(2n-1)，而在生活工作中，一般用的最多的是8 bit，也就是说fmax值是255。

前面所说计算全都只是针对灰度图像，因为其每个像素点都可用灰度表示而不需要颜色的叠加。但是彩色的图像就不一样了，彩色图像中的每个像素点的颜色，都是由RGB 3个分量叠加出来的复合型颜色，而不是单独的，这3个分量需要各自用一个字节来表示，所以彩色图像的PSNR表达式为

PSNR=

(17)

式(17)中的MSE(R)、MSE(G)、MSE(B)分别是指红、绿、蓝各自的均方误差。其还有另外一种表达方式为

(18)

也就是说先分别算出R、G、B3个分量的峰值信噪比PSNRR、PSNRG、PSNRB，再对这3个值求出平均值即可。

现在用PSNR方法更多一些，因为这种方法理解起来相对容易，计算也不那么的复杂，其值与图像的质量呈正相关，和主观感受更接近一点，也就是说一般PSNR值高的图像，质量会更好一些。一般来说，当PSNR>28时，图像质量的差异就已经不明显了，而当超过35或40的时候，人就几乎看不出区别了；而MSE方法和主观感受并不相近，所以一般不会单独用来评价图像，都是代入PSNR方法中。

4 系统功能与测试

本系统在Windows 8操作系统上在，通过MATLAB 7.0[14]实现。

本系统的功能有：

(1) 打开待检索图集所在文件夹，以便进行图像的管理(添加或删除)；

(2) 打开训练样本图集所在文件夹，以便进行管理；

(3) 对输入的待检索图像进行特征提取；

(4) 计算不变矩的特征的相似性度量，以便进行分类；

(5) 图像质量评估，对分好类的图像，每一类进行一次质量评估以选出最好的一张；

(6) 退出。

此次系统的设计的最重要的地方共有3个：① 图像特征的提取；② 进行分类的时候所用到的相似性度量算法；③ 图像质量评估方法。所提取的特征为形状特征，具体方法用的是不变矩的方法中的Hu矩，相似性度量用的是曼哈顿距离法，图像质量评估方法用的PSNR算法。

首先打开界面，如图1所示，读入待检索的图片集。点击“test image”按钮，会弹出待检索的图片所在的文件夹。可在里面增加或者删除图片，确认无误后关闭即可(见图2)。点击“feature extraction”按钮，可对待提取特征的图像进行特征提取，并以图像的形式表示出来，但是由于后面几个特征值的数值实在太小，所以再配合具体数据共同观察，如图3所示。点击“classify”按钮，可对待检索图集执行分类操作，并在屏幕上显示结果。如图对旋转放大图片和模糊清晰图片进行了测试，没加入训练样本集的图片则添加标签“暂无此分类”以提醒，结果如图4所示。点击“run”按钮，先对待检索的图片集进行分类，之后再从每一类中选出最好的一张图片，筛选结果如图5所示，上方的两种人脸是笑与不笑的分类。

图1 检索系统的操作界面

图2 待检索的图集

图3 图像的7个不变矩的值

图4 模糊与清晰图片测试

图5 分类及筛选后的最终结果

5 结语

本文在研究国内外基于内容的图像检索技术的历史发展和应用状况的基础上，主要进行了以下工作。对基于内容的相似图像检索技术进行了简要描述，用不变矩特征中的Hu矩进行特征提取操作，介绍了常见的几种相似性匹配算法，并选用PSNR图像质量评估算法对优质图像进行选择，最后用文中介绍的技术实现了一个相似图像检索系统。实现该系统的3个关键问题是：图像的特征值提取和基于内容特征的图像相似性匹配方法，以及图像质量评估方法。本文对这些方法的研究和探索，实现了设计预期的基本功能。

参考文献(References)：

[1] 叶金财. 数字图像质量的多源特征分析与提取[D].南昌：江西财经大学计算机应用技术,2010.

[2] 肖明，王永红，石勇. 基于内容的图像检索研究进展[J].情报杂志, 2007,26(1): 43-45.

[3] Ooi B C， Tan K L， Chua T S，et al. Fast image retrieval using color-spatial information[J].Vldb Journal — the International Journal on Very Large Data Bases, 1998, 7(2):115-128.

[4] 李勇. 基于内容的图像检索技术研究[D].吉林：吉林大学通信工程学院,2009.

[5] 傅文林. 基于内容的图像检索技术研究[D].上海：上海交通大学模式识别与智能系统,2010.

[6] 梁大宽, 韩晓明. 基于融合Hu矩和区域矩特征的多车牌定位[J]. 计算机工程与设计, 2016, 37(11):3097-3101.

[7] 原玥, 王宏, 原培新,等. 一种改进的Hu不变矩算法在存储介质图像识别中的应用[J]. 仪器仪表学报, 2016, 17(5):1042-1048.

[8] 郭晓宇. 基于Hu矩和Zernike矩的图像目标识别算法设计[D].沈阳：沈阳航空工业学院测控技术与仪器,2009.

[9] 任金昌，赵荣椿，冯大淦. 用形状相似性进行基于内容的图像检索[J]. 中国体视学与图像分析, 2000(1): 44-48.

[10] 冯爱萍. 基于内容的图像检索系统研究[D].北京：北京邮电大学信息与通信工程学院,2011.

[11] 许凯. 基于图像识别的苹果果实检测技术[J]. 实验室研究与探索, 2016, 35(10):36-39.

[12] 李红蕾，凌捷，徐少强. 关于图像质量评价指标PSNR的注记[J].广东工业大学学报,2004，1(3): 74-78.

[13] 孙燕, 李晓光, 卓力,等. 一种基于小波压缩感知的藏族壁画图像处理[J]. 实验室研究与探索, 2016, 35(5):138-140.

[14] Gonzalez Rafael C, Woods Richard E, Eddins Steven L，等.数字图像处理(MATLAB版)[M].2版.北京：电子工业出版社,2014.