APP下载

全信息图像质量评估研究发展综述*

2012-09-02蔡云泽许晓鸣

指挥控制与仿真 2012年4期
关键词:主观数据库函数

韩 瑜,曹 寅,蔡云泽,许晓鸣

(1.江苏自动化研究所,江苏 连云港 222006;2.上海交通大学,上海 200030)

1 图像质量评估研究的初步介绍

图像质量的评估问题,是关乎图像信息系统的可靠性问题,是图像自动化系统性能的重要指标。且图像质量的评估研究影响着图像工程的各个方面,如图像恢复,图像分割,计算机视觉[1-2]等。对图像质量评估的研究有助于提高整个图像工程技术和信息系统的自动化水平[2]。

最好的图像质量评估方法无疑是对图像进行人工主观评估。人的主观感觉能够准确地反映图像中人感兴趣的区域,即便在缺乏可靠信息模型,其它方法不能很好地应用的情况下,主观评估依然能够适用,这是人工主观评估方法的最大优势。需要注意的是,人工主观评估在实施过程中需要考虑如室内光照、显示器刷新率、图像轮换次序等一系列环境因素,关于人工主观评估方法的具体实施细则在国际上已经达成了共识,成为了国际电信联盟(ITU)的标准之一[3-5]。很明显,主观评估方法具有很多缺陷:其实施需要大量的时间来训练质量评估人员,还要保证工作人员评估图像时的外界环境(室内光源,观察时间,图像显示手段等)的一致性。最主要的是,这种方法不能满足现代工业自动化的要求。

随着自动化技术的发展,不依靠人为因素的客观评估方式,即图像质量评估算法/函数(Image Quality Assessment,IQA,或者 Image Quality Metric,IQM),逐渐体现出其优越性。所谓图像质量评估算法是视评估算法为一个函数,其输入为被测图像,输出为图像质量的评估值。图像质量评估算法出现的目的就是减少图像质量评价过程中人工的干预,将图像质量评估问题转化为一个特殊的函数确定问题。

图像质量评估算法概念一经提出就受到广大图像研究工作者的重视,经过多年的研究,出现了大量的图像质量评估函数。传统的图像质量评估论著[2]认为,图像质量主要受制于图像中的加性噪声,这是一种以反映信号的精确性为理念的准则。为了检测影响图像中的噪声成份,经典的图像质量评估算法往往设计成能够检测噪声特性的函数,比如具有代表性的均方根误差(Root Mean Square Error,RMSE)[2]、信噪比(Signal Noise Ratio, SNR)[6]、峰值信噪比(Peak Signal Noise Ratio, PSNR)[6]等。这样的质量评估方法虽然简单且意义明确,但在长时间的工程实践中,研究人员发现,这种信号的准确性准则并不能够准确地描述图像的质量。

如图1中,b和c都是由a产生的模糊图像,如果采用传统的均方根误差(RMSE)作为质量标准,可以计算得出图像b和c与a的均方根误差都在13.5左右(图像灰度0~255)。但从人的视觉感观角度上,图像c的质量明显高于b,在图像c中,人物的五官能够比较清晰地显示,而图像 b中,人物的五官已经十分模糊了。图1的例子可以很明显的表现出传统的信号准确性准则在图像质量评估中所存在的问题。关于这种信号精确性准则的其它缺陷,文献[7-8]有详尽的论述,这里不再叙述。

图1 具有相同均方根误差(RMSE)的同一景物模糊图像

随着研究的不断深入,研究人员对图像质量评估算法在一定程度上达成了统一的认识。世界各国的研究人员普遍承认,在对原始参考信息的获取和利用角度上,可以将客观的图像质量评估方法分为全信息评估(Full Reference),盲信息评估(No Reference),部分信息评估(Reduced Reference)三种方式[9-10]。

● 全信息评估是指参考图像完全清楚时候,即参考目标信息完全清楚的情况下,对被测图像进行评估方式。

● 盲信息评估是指在没有可以参考图像信息的时候,对被测图像进行评估的方式。

● 部分信息评估是指参考图像只有部分信息(如边缘信息或者某些统计量)知道的时候,对被测图像进行评估的方式。

在本文中,我们主要对全信息图像质量评估的研究情况进行论述。

全信息评估是最早产生的图像质量评估方法,由于参考图像的介入,全信息评估方式能够较好反映被测图像与源图像之间的偏差,因此对于全信息图像质量评估的研究一直受到图像应用界的广泛关注。在实际工程中,全信息图像质量评估函数可以用在如图2的图像处理系统当中。如对于通信中常见的图像压缩编码系统,保证较大的压缩率和较好的压缩效果一直是一个工程悖论,而全信息图像质量评估结果可以指导压缩率的调整[11-13],以确保最优的压缩策略;同样,对于图像恢复/重构系统,全信息图像质量评估结果可在图像恢复、滤波方法中作为恢复/重构算法参数调整的信息反馈[14-16],来使系统获得质量较好的输出图像。

图2 全信息图像质量评估函数在图像处理系统中的应用

2 图像质量评估的发展历程

对于图像质量函数评估的研究自20世纪60年代就已经开始,至今已有近50年的历程。纵观这50年的发展状况,图像质量评估研究大致经历了四个发展阶段。

1)20世纪60年代末至80年代初

这是图像质量评估产生的最初时期,这一时期的图像质量评估方法主要是采用将图像作为二维信号,从传统的信号准确性上对图像质量进行定义和研究。很多经典的一维信号准确性判定方法都被直接移植到图像质量评估中,如均方根误差(Root Mean Square Error, RMSE)、信噪比(Signal Noise Ratio,SNR)、峰值信噪比(Peak Signal Noise Ratio,PSNR)[2,6,11]等。这些方法结构简单,理论意义明确,但是缺点也很突出:如前文所述,由于图像的质量是和人主观感受相关的,这种简单的准确性准则在实际中并不能很好地表达出其质量的优劣。

虽然信号准确性准则并不完美,但在很长的一段时间里(直至现在)研究人员仍然将其作为一个图像质量的主要参考标准。

2)20世纪80年代中后至90年代初

随着图像处理技术的深入研究和图像系统的广泛应用,一些研究人员逐渐认识到传统的信号精确度准则不能反映出图像质量状况。因此,引入新的模型、方法、以及当时最先进的图像处理手段来构造出图像质量评估函数成为了研究的主流趋势,具有代表性的如差熵函数[17-18],边缘统计函数[19-20],色觉差异性[21],主观视觉系统评估方法[22]。综合当时的情形,可以认为是多种不同的图像质量模型共存,多种不同类型的评估函数不断出现,即“百家争鸣”的状况。但实际上,隐藏在这种“百家争鸣”状况的背后是众多研究人员对于图像质量优劣这一概念的模糊和混淆。

因此这一时期的图像质量评估方法在一定程度上都有着“通病”——结构复杂而准确性并没有明显提升,对于工程应用并无太大益处。

3)20世纪90年代中后期

随着研究的不断深入,将人的主观视觉响应作为图像质量评估的最终标准得到了越来越多的研究人员的响应。在 Nill[22]的视觉模型工作基础上,Daly[23]对于经验的主观视觉的对比度函数重新进行建模,并将建模结果用于图像质量预测上。Lubin[24-25]在吸收和利用 Daly成果的基础上提出了误差显现(Just Notice Different,JND)模型,并在此模型的基础上构造了JND评估方法。Daly和Lubin的工作是对图像评估的主观视觉系统评估方法(Human Vision System,HVS)的新发展,并且在实践中得到了较好地验证。而随着Daly和Lubin工作的巨大成功,越来越多的研究人员对将主观视觉响应作为图像质量的最终评价标准达成了共识。

同时,由于20世纪90年代以前出现了大量的图像质量评估函数,研究人员意识到仅仅通过简单的实验和个人的判断对图像质量评估函数进行定性比较是不严谨的,需要对这些图像质量评估函数进行统一客观的测评和比较来判断其优劣。1997年,来自多个国家的图像研究人员组成了图像质量专家工作组(Video Quality Expert Group, VQEG)[26-27],为图像质量评估函数的测评研究提供了系统支持。他们总结了从1970年到1995年出现的不同的图像质量评估函数,在他们的主观数据库上对其做出了系统地比较。有趣的是,根据 VQEG的结果,当时很多所谓先进的图像质量评估方法在统计角度上并没有和PSNR存在明显差异。虽然VQEG的工作并没有直接研究出最优秀的图像质量评估方法,但是他们的工作第一次系统地给出了图像质量函数间进行客观比较方法,并且明确了比较方法的四个要素:具有主观评估结果的图像数据库、客观评估函数计算值、主观图像质量的客观预测方法、客观预测的准确性性能指标。VQEG的工作对图像质量评估的研究产生了巨大的影响,受到了广泛地承认,可以认为后续的图像质量评估工作大都是在VQEG的测评标准指导下进行的,因此 VQEG的工作可以认为是图像质量评估研究中的里程碑。

4)2000年至今

由于VQEG的卓越工作,进入2000年以后,图像质量评估研究进入到了较快发展阶段,其中以美国Texas大学的Bovik研究工作组的工作尤为出色。他们针对 VQEG图像数据库数据量少,模糊种类单一的缺点,构建了 Laboratory for Image & Video Engineering (LIVE)图像评估数据库[28]。在LIVE数据库中,他们全部采用彩色图像作为评估对象,并引入了 JPEG2000图像,离焦图像等五种图像失真类型。可以认为LIVE数据库是在VQEG之后第一个专业用于图像质量评估的数据库。同时,他们从信息需求的角度,第一次系统地将图像质量评估函数分为:全信息评估(Full Reference),盲信息评估(No Reference),部分信息评估(Reduced Reference)三种方式。并构造了全局质量指标(Universal Image Quality Index, UQI)[29],结构相似度指标(Structural Similarity Image Metric, SSIM)[9,30],信息逼真度(Information Fidelity Criterion, IFC)[31]和视觉信息逼真度(Visual Information Fidelity, VIF)[32]等一系列全信息图像质量评估方法,并在LIVE数据库上进行性能测定及比较。根据他们的结果[33],这些方法在LIVE数据库上都有较好的性能,其中全信息方法以VIF最为优异,成为了Bovik工作组最具有代表性的工作。

除了Bovik工作组之外,美国Oklahoma大学的Damon M.Chandler研究组对图像质量评估也有较多的贡献。他们在精心研究视觉响应的基础上提出了视觉信噪比(Visual Signal Noise Rate, VSNR)[34]方法,并对经典的主观视觉响应做出了一定修正。为了适应实际中人眼对不同质量图像的响应,他们采用双重策略的方法构造出了优势策略融合(Most Apparent Distortion, MAD)[35]评估方法。同时,在数据库构建上,他们通过采用不同的参考图像,并加入对比度和有色噪声的评估实验环节,构造出了Categorical Subjective Image Quality(CSIQ)图像评估数据库[36]。根据他们的研究结果,由于加入了更多主观试验的类型,CSIQ数据库比 LIVE数据库更能反映出评估函数的优劣。更为难能可贵的是,相对于VIF只能在LIVE数据库上具有较好的性能,他们构造的优势策略融合方法在CSIQ和LIVE数据库上均有较好的性能。

相比美国的多个研究组并存的局面,欧洲的研究更多的是以合作的形式出现。他们认为制约图像质量评估发展的一个主要原因是主观评估结果图像数据库的匮乏,这种匮乏具体体现在数据库的源图像的数量上和模糊图像的多样性上。2008年,经过来自芬兰、乌克兰、意大利的研究人员的共同努力,发布了Tampere Image Database2008(TID 2008)[37]图像评估数据库。应该说TID2008是现今已经发布的具有最多样本的图像质量评估数据库,其中不但囊括了LIVE和CSIQ的失真图像类型,还加入了其他新引起关注的失真类型。整个TID2008数据库包含了1700张模糊图像,比LIVE和CSIQ的总和还多。除了图像数据库的工作,他们还提出了视觉峰值信噪比(PSNR-HVS)[38]方法。该方法是基于主观感官相应和峰值信噪比方法,方法虽然简单,但是在 TID2008数据库上显示出了优异的性能。

除了以上这些专业的图像质量评估研究组的工作外,还有一些以实际问题或者特殊领域为背景的研究工作。如日本的Sazzad[39-41]针对JPEG编码图像的质量评估工作,英国 Eskicioglu[42-43]针对 JPEG编码图像的质量评估工作等。

国内对于图像质量评估研究工作主要集中在一些高校内,比较有代表性的如上海交通大学的工作[44],西安电子科技大学的工作[45-46],国防科技大学的工作[47],宁波大学的工作[48]等。尽管国内的研究工作起步较晚,但在整体性能上并不输于国外的前沿工作,仅仅是在某些基础图像理论上与国外先进工作还存在一定的差距。

整体上来看,2000年以后的图像质量评估方法都是在VQEG的工作结果基础上对图像质量评估算法进行合理测评和比较。因此,2000年以后出现的图像质量评估算法都具有比较可靠的性能。

3 图像质量模型与图像质量评估函数构造方法

为了更准确地反映出图像的质量,首先需要对图像质量进行理论上建模。通过引入图像质量的理论模型,可以极大地减少图像质量评估对人工因素的需求。而现代图像模型是依据现代数字图像可以用矩阵(或者张量)表示的方法,通过将图像考虑成一个二维或者多维矩阵,来进行图像处理。因此,全信息图像质量模型也可以认为是构建在参考图像矩阵和被测图像矩阵基础上的模型。

在实际研究中,科研人员往往借鉴三个学科的研究成果对图像质量进行建模:物理光学、图像处理、视觉心理学,如图3。而现有较为精确的图像质量评估函数往往也是构建在这三个学科研究基础之上的。传统的图像研究更注重于从前两个领域入手(物理光学和图像处理),而对于视觉心理学这一领域,鲜有提及。直到20世纪90年代中后期,研究人员提出将主观视觉响应作为图像质量的最终评价标准之后,对于视觉心理学的研究及应用才受到广泛地重视。纵观整个图像质量评估的研究历史,其中几个比较重大的推进往往都是基于视觉心理学的研究结果。

针对已有的全信息图像质量评估函数,我们认为其图像质量模型大致可以分为三类:1)空间距离模型;2)统计模型;3)视觉理论模型。在这些模型基础上,研究员人员通过对模型作用的空间范围的变化(整体—局部,单一标准—多尺度)构造出了不同的图像质量评估函数。

图3 图像质量评估可以借鉴的学科领域

3.1 空间距离模型

空间距离模型是最早的图像质量评估函数设计模型[11]。这种模型认为图像的质量是与参考图像和被测图像之间的直接差异相关的。这类模型以参考图像和被测图像间的对应像素为基础,通过各种空间变换或者区域选择,反映出被测图像和参考图像间的差距。

经典的基于空间距离模型的评估方法有均方根误差(RMSE),信噪比方法(SNR)和峰值信噪比方法(PSNR)。这些方法都是建立在全局范围内(整个图像)的对应像素差异(直接求差值)基础上的。如果将方法的作用范围限定到图像的一个个局部区域,并用其它的距离模型替代直接求差的方法,也可以得到用于图像质量评估的函数,如近几年提出的奇异值图谱法(SVDGM[42])、LU因子结构法(LUFM[49])、四元素奇异值图谱法(QSVDGM[48]),其计算过程就是在局部空间范围内,通过对图像局部矩阵的奇异值、LU因子、四元素距离的计算比较来得到图像质量。

3.2 统计模型

统计方法着重于全局,对信号的描述反映出信号的整体特征,因此应用统计模型构造新的图像质量评估函数受到了很大关注。常用的作为模型的特征量有均值(Mean)、相关系数(Correlation Coefficients)、标准差(Standard Deviation)、熵(Entropy)、斜度(Skewness)和峭度(Kurtosis)等。

经典的统计模型评估函数是直接将统计特征量作为图像质量的标准,如差熵函数评估方法(Difference Entropy)和相似度评价函数(Correlation Function)[6],都是用一个或者几个统计特征量进行简单地组合而得到。而近年来,随着对图像质量的深入理解,对于统计模型的使用更加注重了时空特性,比如:结构相似指标度量(SSIM[9,30]),小波统计质量度量(DWTS[43]),几何失真统计度量(GDDM[47])。其中SSIM是建立在空间局部领域内的相似度的统计方法,DWTS是建立在多尺度(小波)范围内的标准差统计方法,而GDDM则注重对区域内的几何信息进行统计。

3.3 视觉信息模型

由于图像质量评估的目的是反映人的主观感官,而单纯的理论模型是很难反映出图像中人的主观兴趣的,因而很自然想到利用视觉理论对图像质量进行建模,进而进行图像质量评价。对于视觉理论的研究是交叉于生理学和心理学之间的,其重大的结果有很多,比较有代表性的有视神经对彩色图像的信息分离作用,视神经频段的响应性,视神经响应的方向性等。而在实际中,研究人员也发现有效地利用图像的视觉先验信息来构建图像质量评价函数的确能够较为准确地反映出图像的主观质量。实际中的视觉先验信息一般分为两类:一种根据图像内容相关,即来自图像本身,如轮廓(边缘)、颜色等;另一种与图像内容无关,来自生理学和心理学的统计研究,如人的主观兴趣区频率、视皮层的纹理响应等。

构建基于视觉理论的图像质量评价函数的原理框架如图4所示。

图4 基于视觉信息的评价方法

基于视觉模型的图像质量评估方法,首先得到视觉信息(一种或者几种),然后再结合具体的理论形成图像质量评估函数。由于采用的视觉信息的机理各不相同,因此难于对质量评估函数具体形式做出统一的分类和比较。这里我们在视觉信息种类的基础上对图像质量模型进行说明。

3.3.1 色彩信息模型

在色彩研究中,颜色信息模型是指为了正确地再现颜色而构造的色彩差异性模型,其相关资料可以查阅[50]。其基本理念是根据人眼的特性,将普通的RGB图像映射到颜色空间中。如通过比较颜色空间中参考图像和被测图像的差异性,得到基于颜色信息的图像质量评估函数。因此,这里的颜色模型,是通过RGB图像到颜色空间的转换函数来实现的。常用的颜色空间有1976 CIE L*u*v* 、1976 CIE L*a*b*[21]、S-CIELAB[51]、CIECAM02[52]等。应用色彩信息的图像质量评估函数构造思想简单,对某些失真具有比较好的效果,近几年代表性的工作如文献[53-54]。

3.3.2 边缘模型

对于人的视觉来说,图像中物体的边缘轮廓信息起着重要的作用。即便是在机器视觉系统中,图像中的边缘信息也是反映图像内容的重要手段。因此应用边缘信息构建的图像质量的评估函数能够有效地反映出图像的视觉质量。通常边缘信息是通过Sobel,Prewitt[19],Canny[55-56]等边缘检测方法对图像进行作用而得到。应用边缘轮廓信息的图像质量评估函数构造思想简单,效果较好,代表性的如文献[19-20]。

3.3.3 视觉兴趣区模型

视觉兴趣区模型是来自心理学统计实验的结果。实验表明,人对图像的视觉兴趣集中在某一频率区范围内,因此有了构造视觉兴趣区滤波器来得到图像的视觉响应这一方法。通过对视觉响应的图像进行比较,可以得到基于视觉兴趣区的图像评估函数。通常的视觉兴趣区滤波器有 Mannos-Sakrison滤波器[57],Daly滤波器[23],Ahumada滤波器[58], Gabor滤波器[59,60]等。图5为Mannos-Sakrison滤波器频域图。

图5 Mannos-Sakrison滤波器频域图示

基于视觉兴趣区模型的图像质量评估函数从理论上是能够更接近主观判别标准,代表性的工作有文献[23-25]。由于经典的视觉兴趣区模型是在一个统计层次上的工作,在实际研究中发现这种视觉兴趣区评估方法会因理论存在的条件差异而导致结果并不十分准确。因此近年来,对于主观视觉模型评估方法的研究更多地建立在应用局部处理和多尺度的概念细化主观模型上。这一类比较有代表性的评估方法有VSNR[34],MAD[35],MGA[45-46]。

3.3.4 自然图像统计模型

除了经典的特征量的统计模型外,还有一类统计模型是依据自然图像统计学而建立。自然图像统计学是上世纪90年代中后期产生的,它因自然图像的一些特征量值(空间邻域差,频域系数,小波系数)满足类似幂律(Power-Law)分布而产生,它通过采用对称指数分布,多高斯联合分布,幂律分布,Gama分布等一系列概率分布[61,62]对这些量值进行建模,来预测图像的整体信息。图像质量评估函数首先对参考图像和被测图像的图像特征统计量进行计算,然后对于这些统计量进行了基于多尺度或者局部信息的综合及统计分析,而得到图像质量的评估值。代表性的基于自然图像统计学图像质量评估函数如IFC[31],VIF[32]。

4 图像质量评估函数的性能测定及比较方案

如前所述,客观图像质量评估函数的研究经历了一个由不定性能到确定性能分析研究的历程。在这一历程中,客观图像质量评估函数的性能检测及指标的确定起了举足轻重的作用。客观图像质量评估函数的性能检测方案的确定让传统研究中遗留下来的一系列问题有了清楚地判断和解释。在客观图像质量评估函数的性能检测方案的确定中,VQEG起了开创性和决定性的作用。他们以图像的客观判断须和人的主观感受一致这一理念为核心,充分考虑到不同客观图像质量评估函数在计算过程中存在的尺度性差异和图像本身存在的个体性差异,提出以预测统计量为基准来反映图像的质量,其检验流程思路如图6所示。

根据图6,对于图像质量评估函数的性能比较:首先,在给定的含有图像主观评估结果的图像数据库中(以下简称为图像质量评估数据库),计算出客观评估函数的评估值,然后建立运用客观评估结果预测主观评估结果的预测模型,最后通过预测值和真实值间的一系列统计性能指标来反映客观评估结果的主观预测能力。基于此,对于图像质量评估函数的性能测试需要四方面工作:图像的主观评估结果,图像的客观评估结果,主观评估结果与客观评估结果间的联系预测,计算标志客观图像质量评估函数的性能指标。

图6 VQEG的图像质量评估流程

4.1 主观评估结果

通常主观评估结果以图像质量评估数据库的形式出现。由于图像质量评估的准确性建立在大量数据之上,而要得到能够反映图像质量的主观评估结果需要大量的人力、物力及时间,因此国际上仅有少数研究组织构建了图像评估数据库。经典的VQEG的工作主要针对JPEG编码图像,因此VQEG的图像数据库在很大程度上有一定的局限性。2000年以后,为了满足检验不同的图像质量评估效果的需要,国际上多个研究组织又分别构造了LIVE[28],CSIQ[36],TID2008[37],IVC[63]等图像数据库。这些数据库都提供了参考图像和由参考图像生成的失真图像,以及失真图像的主观质量评估值(数据库在构建过程中都采用基于主观评估方法[3-4]得到主观质量评估值)。

4.2 客观评估结果

通过对数据库中提供的参考图像和失真图像的计算可以得到每种图像质量评估函数的评估结果。

4.3 主客观联系预测

由于客观评估函数产生的值和主观评估值往往不在一个尺度上,而且不同数据库中的主观评估尺度也是不同的,为了保证性能测定和比较的客观性,在进行计算之前,需要通过一个特殊的模型函数将其尺度调整一致,这种尺度调整就是通过主客观联系预测而实现的。由于要考虑客观预测的准确性、单调性和一致性,因此普遍采用单调非线性映射函数的方式来作为主客观评估间的联系函数。需要注意的一点是,预测的一致性体现在非线性映射函数的单调性上(至少在数据区内保证单调性)。VQEG推荐的预测方式是修正的逻辑回归方式,即在逻辑回归上加上线性修正项,如方程(1),根据需要也可以加上高阶修正项。

式(1)中,x为函数评估值,α1,α2,…,α5为方程参数,参数可以通过某些优化方法而确定。当然VQEG也推荐采用高阶多项式作为预测函数,但是需要保证预测函数在数据区间内的单调性。

4.4 客观图像质量评估函数的性能指标

在图像质量评估函数的研究中,反映评估函数优劣的标准往往起了指导性作用。根据VQEG的思想[27],图像质量评估函数的预测效率应该从预测的准确性、单调性和一致性来考虑;而Bovik[33]认为误差性也是一个重要的客观标准,Damon[35]则把主客观预测模型的无偏性也作为一个重要指标来考虑。这里我们对五类性能指标逐一进行介绍。

1)准确性比较

预测的准确性的比较指标在VQEG文献[27]中有详细地描述,VQEG普遍采用相关系数(Correlation Coefficient, CC)法进行质量评估函数的准确性评估,公式如式(2)。

而上式中,Xsub(i)和Ypre(i)分别代表主观的评估值和客观评估的预测值,M代表总共的评估图像数,wi代表权系数。相关系数CC值越大,表示预测的准确性越高,相关系数值介于0,1之间。

应该说,相关系数指标是一类比较客观的指标。它反映了主客观评估值之间的相对关系,相关系数并不随主客观评估尺度(scale)的改变而变化。因此即使在不同的数据尺度下,相关系数仍然能够反映评估函数的性能。

2)误差性比较

Bovik在文献[33]讨论了VQEG提出的各种比较方法的不足,提出采用预测后与主观评估的根均方误差法和绝对平均误差法可以作为误差性评估指标。

均方根误差法(Root Mean Square Error,RMSE)的公式如式(3):

平均绝对误差法(Mean Absolute Error,MAE)的公式如式(4):

均方根误差和平均绝对误差值越小表示预测的结果越高。但需要注意的是,不管是均方根误差法还是平均绝对误差法,都受制于主客观评估尺度。不同尺度下的均方根误差法和平均绝对误差法,没有任何比较的意义。

3)单调性比较

对于单调性的评估一般采用对于主观的评估值和客观评估的预测值进行斯皮尔曼等级相关系数比较(Spearman Rank Order Correlation Coefficient,SROCC),有关斯皮尔曼等级相关系数的内容请参看文献[64]。斯皮尔曼等级相关系数越大代表预测的单调性越好。同样斯皮尔曼等级相关系数不受主客观评估尺度的影响。

4)一致性比较

通常,对于一致性的比较一般采用计算预测错误率的方法。

预测的错误率(Outlier Ratio,OR)定义如式(5)。

其中Xsub(i)和Ypre(i)分别代表主观的评估值和客观评估的预测值,M代表总共的评估图像数,σX代表主观感官值的方差。Totoal_Number(p)反应满足关系式p的样本的总个数。预测的错误率越小越好。预测的错误率不受主客观评估尺度的影响。

5)预测模型无偏性

由于在计算指标前应用了主客观预测的方法,因此预则模型的准确度也会对性能指标的计算有所影响。无偏性是指假设预测模型是准确的,那么预测结果的残差应该满足正态分布。Damon提出通过Jarque-Bera检验来反映出模型无偏性[35],有关Jarque-Bera检验的内容请参看文献[65]。Jarque-Bera检验值越小,模型无偏性越好。Jarque-Bera检验不受主客观评估尺度的影响。但需要说明的是,预测模型的无偏性与其它四个指标的相关性不大,往往在模型结果十分不精确的时候,其误差分布也是正态的,而此时Jarque-Bera检验值也会很小。因此预测模型的无偏性仅在其他指标表现比较优越的时候才有一定的比较意义。

除了以上五类指标以外,对于图像质量评估函数的性能还可以从预测散度图和主客观预测图上进行直观的反映,如图7所示。

预测散度图,如图7(a),其中每个点代表一幅图像,其纵横坐标均为图像质量评估的主观值,其纵坐标为真实主观评估值,横坐标为质量评估函数预测后的评估值。理论上总是希望真实主值和客观预测的主观值越接近越好,即预测结果尽可能地分布在函数y=x周围。因此预测散度图中的点分布越接近y=x这条直线说明图像质量评估函数的性能越好。

主客观预测图,如图7(b),其中每个点代表一幅图像,其纵横坐标单位不同,其中纵坐标为主观评估值,横坐标为原始评估函数值,理论上要求图像中点的分布能够单调地服从某个函数(红色曲线),这个函数即为预测模型。因此在主客观预测图中点的分布越接近模型曲线说明图像质量评估函数的性能越好。

图7 预测散度图(a)和主客观预测图(b)

需要注意的是,根据VQEG的设计,图像质量评估函数的性能测定方案不仅适用于全信息图像质量评估函数,对于盲信息和部分信息质量评估函数性能测定同样是有效的。在标准化的性能测试工作基础上,上海交通大学研究人员提供了一个统一的图像质量评估函数性能测试平台[66],供研究使用。平台能够兼容多种图像质量评估数据库并能计算上文所述的各种性能指标,在一定程度上缓解了研究人员在图像质量评估函数性能测定工作上的强度。

5 结束语

本文综述了全信息图像质量评估方法的发展历史,总结了国内外出现的各种不同的图像质量评估方法,并对这些图像质量评估方法进行了客观的分类和分析。同时本文对图像质量评估函数的性能评价标准进行了详尽地介绍。尽管今天的全信息图像质量评估方法在一定程度上已经取得了较好的结果,但是应该意识到,对于全信息图像质量评估的研究还需要继续深入。根据前文的论述,作者认为对于未来的图像质量评估方法的发展,整体上应该从以下4个方向上进行。

1)提高图像质量评估函数的泛化性

所谓图像质量评估函数的泛化性是指图像质量评估函数的性能与试验样本量之间的关系,当评估函数的性能与试验样本量之间没有明显相关性时,可以认为其泛化性好。而实际中经常出现的情况是,某个图像质量评估函数在小样本的试验环境下有较高的性能,而当样本量提高后,评估函数性能急剧下降。例如:根据文献[33]的比较结果,最优秀的评估函数VIF的相关系数约为0.95,距离其最优的相关系数1还差0.05。这么小的误差似乎预示着全信息图像质量评估方法已经十分接近了最优的效果。而根据文献[67],对于一个具有较大容量,较多失真类型的图像库的测试,VIF在其中只有0.75的相关度,而PSNR仅有0.53的相关度。这样大的差距主要产生在试验样本量和类型上,文献[33]的实验样本为799张图像5种失真类型,而文献[67]的实验样本为1700张图像17种失真类型。从这个角度上,提高图像质量评估函数的泛化性能还有很长的路要走。

2)视觉信息模型引进及研究

从整个图像处理的发展来看,自20世纪90年代中后期始,图像的视觉信息模型研究受到极大地关注,研究成果不断在国际顶级期刊上出现。而我国的视觉信息模型研究则略晚,主要始于在近十年内。而对于图像质量评估研究来说,基于视觉模型的图像评估函数的性能还远没有达到其理论上应该具有的精度。其原因无非是视觉模型在运用时的过度简化和条件差异,但从长远的发展来看,基于视觉模型的图像评估函数仍然是未来国际研究的主要趋势。这一点可以从近三年来,国际上各个研究小组的工作方向和结果上得到印证,如Bovik工作组正在进行基于独立成份分析的图像统计模型研究[68],Damon研究小组完成的log-Gabor滤波器的视觉质量建模[35],Egiazarian研究小组已完成的将HVS模型引入PSNR的研究[38]。如何合理地研究和引进供图像质量评估函数使用的视觉信息模型将会是未来的研究热点。

3)构造具有一定移植性的图像质量评估函数

图像质量评估的最终目的是要达到没有参考图像而能够准确评估出图像质量的能力,即盲信息的图像质量评估。在盲信息的评估研究中,出现了Wang将SSIM[69],Sheikh 将VIF[70]进行修改而满足盲信息的图像评估的要求,构建盲信息的图像评估方法。应该说这种对全信息图像质量评估方法修改而产生盲信息图像质量评估方法具有较为清晰的理论意义和实用价值,将是未来图像质量评估方法的一个主要方向。毕竟它在一定程度上减少了盲信息图像质量评估方法中评价机理的研究。在满足准确性的要求下,构造的全信息图像质量评估方法能够容易地改造成盲信息图像质量评估方法,也将成为未来图像质量评估方法的主要关注目标之一。

4)创建具有较多样本的图像质量评估数据库

再好的图像质量评估方法也需要有图像质量评估数据库来反映和体现。好的图像质量评估数据库能够区分出各种图像质量评估函数的优缺点,因此对于图像质量评估数据库的研究也是非常重要的。未来的图像质量评估数据库构建应该考虑到样本数量、景物类型、图像失真类型三种因素,在整体上确保客观地反映被测评估函数的性能。

[1]Kenneth R. Castleman. Digital Image Processing[M].New Jersey:Prentice Hall,1995.

[2]Rafael C. Gonzalez, Richard E. Woods. Digital Image Processing[M]. New Jersey:Prentice Hall, 2002.

[3]Rec. ITU-T P.910 Subjective Video Quality Methods for Multimedia Application[R]. ITU-T Recommendation, 1996.

[4]Rec. ITU-R BT.500-7.Methodology for the Subjective Assessment of the Quality of Television Pictures[R].ITU-R Recommendation, 1974-1997.

[5]Methodology for subjective assessment of the quality of television pictures[R]. Recommendation ITU-R BT.500-10, 2000.

[6]Ismail Avcıbas, Bulent Sankur, Khalid Sayood.Statistical evaluation of image quality measures[J].Journal of Electronic Imaging, 2002, 11(2):206-223.

[7]Wang, Zhou, Bovik, Alan C, Lu, Ligang. Why is image quality assessment so difficult? [C]. IEEE International Conference on Acoustics, Speech and Signal Proceedings. New York:IEEE Press, 2002:3313- 3316.

[8]Zhou Wang; Bovik, A.C.. Mean squared error:Love it or leave it? A new look at Signal Fidelity Measures[J].Signal Processing Magazine, 2009, 26(1):98-117.

[9]Zhou Wang et al. Image Quality Assessment:From Error Visibility to Structural Similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4):600-612.

[10]VQEG. Final Report From the Video Quality Experts Group on the Validation of Objective Models of Video Quality Assessment, Phase II August 2003 [R/OL].http://www.vqeg.org.

[11]A. M. Eskicioglu, P. S. Fisher, A survey of quality measures for gray scale image compression[C]. Proc.of Space and Earth Science Data Compression Workshop. Snowbird:NASA Conference Publication,1993:49-61.

[12]Sumohana S. Channappayya, Alan Conrad Bovik,Robert W. Heath[J]. Rate Bounds on SSIM Index of Quantized Images. IEEE Transactions on Image Processing, 2008, 17(9):1624-1639.

[13]Dale L.Wilson, Adrian J.Baddeley, Robyn A.Owenes.A new metric for grey-scale image comparison[J].International Journal of Computer Vision, 1997, 24(1):5-17.

[14]Van den Branden Lambrecht, C.J. A working spatiotemporal model of the human visual system for image restoration and quality assessment applications[C].IEEE International Conference on Acoustics, Speech,and Signal Processing. New York:IEEE Press,1996:2291-2294.

[15]Sumohana S.Channappayya, AlanC.Bovik, Robert,W.HeathJr. Perceptual soft thresholding using the structural similarity index[C]. IEEE International Conference on Image Processing. New York:IEEE Press, 2008:569-572.

[16]Sumohana S. Channappayya, Alan C. Bovik,Constantine Caramanis, Robert W. Heath Jr..Ssim-optimal linear image restoration[C].International Conference on Acoustics, Speech, and Signal Processing. New York:IEEE Press, 2008:765-768.

[17]K. Popat, R. Picard. Cluster based probability model and its application to image and texture processing[J].IEEE Trans. Image Process., 1997, 6(2):268-284.

[18]T. M. Cover, J. A. Thomas. Elements of Information Theory[M]. New York:Wiley, 1991.

[19]W. K. Pratt, Digital Image Processing[M]. New York:Wiley, 1978.

[20]D. Carevic, T. Caelli. Region based coding of color images using KLT[J]. Graph. Models Image Process,1997, 59(1):27-38.

[21]International Commission of Illumination(CIE).Recommendations on uniform color spaces, color difference equations, psychometric color terms.Publication CIE 15 ~E-1.3.1!, Supp. 2, Bureau Central de la CIE, Vienna ~1971.

[22]N. B. Nill. A visual model weighted cosine transform for image compression and quality assessment[J].IEEE Trans. Commun., 1985, 33(6):551-557.

[23]S. Daly. The visible difference predictor:an algorithm for the assessment of image fidelity[C]. Digital Images and Human Vision. Cambridge:MIT Press, 1993:179-206.

[24]J.Lubin. The use of psychophysical data and models in the analysis of display system performance[C]. Digital Images and Human Vision. Cambridge:MIT Press,1993:163-178.

[25]J.Lubin. A visual discrimination mode for image system design and evaluation[C]. Visual Models for Target Detection and Recognition. Singapore:World Scientific, 1995:207-220.

[26]P.Corriveau and A.Webster. Final report from the VQEG on the validation of objective models of video quality assessment[R/OL]. http://www.its.bldrdoc.gov/vqeg/.

[27]A. M. Rohaly et al. Video Quality Experts Group:Current results and future directions[C]. Visual Communications and Image Processing. Proc. SPIE 4067, 2000:742-753.

[28]H. R. Sheikh, Z. Wang, L.Cormack, A. C. Bovik. Live Image Quality Assessment Database Release 2.[CP/OL].http://live.ece.utexas.edu/research/quality.

[29]Z.Wang, A.Bovik. A universal image quality index[J]IEEE Signal Proces. Lett., 2002, 9(3):81-84.

[30]Z. Wang, E. P. Simoncelli, A. C. Bovik. Multi-scale structural similarity for image quality assessment[C].Asilomar Conf. Signals, Systems, and Computers.New York:IEEE Press, 2003:1398-1402.

[31]H.R.Sheikh, A.C.Bovik, G.de Veciana. An information fidelity criterion for image quality assessment using natural scene statistics[J]. IEEE Transactions on Image Processing, 2005, 14(12):2117-2128.

[32]H.R.Sheikh and A.C.Bovik. Image information and visual quality[J]. IEEE Transactions on Image Processing, 2006, 15(2):430-444.

[33]H.R Sheikh, Muhammad Farooq, A.C. Bovik. A statistical evaluation of recent full reference image quality assessment algorithms[J]. IEEE Transations.Image Processing, 2006, 15(11):3441-3452.

[34]D.M.Chandler, S.S.Hemai. VSNR:A wavelet-based visual signal-to-noise ratio for natural images[J]. IEEE Transactions. Image Processing, 2007, 16(9):2284-2298.

[35]Eric C. Larson, Damon M. Chandler, Most Apparent Distortion:A Dual Strategy for Full-Reference Image Quality Assessment[C]. Proc. of SPIE-IS&T Electronic Imaging. SPIE, 2009.

[36]Image Coding and Analysis Lab. Categorical Subjective Image Quality database[CP/OL]. http://vision. okstate. edu/ csiq/.

[37]N. Ponomarenko, M. Carli, V. Lukin, K. Egiazarian, J.Astola, F. Battisti. Color Image Database for Evaluation of Image Quality Metrics[C]. Proceedings of International Workshop on Multimedia Signal Processing. New York:IEEE Press, 2008:403-408.

[38]Egiazarian K., Astola J., Ponomarenko N., Lukin V,Battisti F., Carli M. New full-reference quality metrics based on HVS[C]. CD-ROM Proceedings of the Second Int. Workshop on Video Proc. and Quality.Metrics, 2006:4.

[39]Tourancheau, S, Autrusseau, F, Sazzad, Z.M.P, Horita,Y. Impact of subjective dataset on the performance of image quality metrics[J]. IEEE International Conference on Image Processing. New York:IEEE Press,2008:365-368.

[40]Y.Horita,Y.Kawayoke, Z.M.Parvez,.Sazzad. Image quality evaluation database[CP/OL]. ftp://guest@mict.eng.utoyama.ac.

[41]Z.M. Parvez Sazzad, Yuukou Horita. Local region-based image quality assessment independent of JPEG and JPEG2000 coded color images[J]. Journal of Electronic Imaging,2008, 17(03).

[42]A. Shnayderman, A. Gusev, and A. M. Eskicioglu. An SVD-based grayscale image quality measure for local and global assessment[J]. IEEE Transsctions on.Image Processing, 2006, 15(2):422-429

[43]Devon Gayle, Hazem Mahlab, Yuksel Ucar, Ahmet M.Eskicioglu[C]. A full-reference color image quality measure in the DWT domain. Proc. of EUSIPCO2005.

[44]韩瑜, 图像质量评估及其在图像信息融合中的应用,博士学位论文,上海交通大学,2011,16-35.

[45]Xinbo Gao, WenLua, XuelongLib, DachengTao.Wavelet-based contourlet in quality evaluation of digital images[J]. Neurocomputing, 2008, 72(3):378-385

[46]Xinbo Gao, Wen Lu, Dacheng Tao and Xuelong Li.Image Quality Assessment Based on Multiscale Geometric Analysis[J]. IEEE Transactions On Image Processing, 2009, 18(7):1409-1423.

[47]G. Cheng, L. Cheng. Geometric directional distortion for full reference image quality assessment[J].Electronics Letters, 2009, 45(25):1305-1307.

[48]Fuqiang Zhang, Junli Li, Gang Chen, Jiaju Man.Assessment of Color Video Quality Based on Quaternion Singular Value Decomposition[C]. Sixth International Conference on Fuzzy Systems and Knowledge Discovery. New York, IEEE Press, 2009:7-10.

[49]Ho-Sung Han, Dong-O Kim, Student Member,Rae-Hong Park. Structural Information-Based Image Quality Assessment Using LU Factorization[J]. IEEE Transactions on Consumer Electronics, 2009, 55(1):165-171.

[50]M. D. Fairchild. Color Appearance Models[M]. New York:Addison-Wesley, 1998:43-89.

[51]X Zhang, BA Wandell. A Spatial Extension of CIELAB for Digital Color Image Reproduction[J].Journal of the Society for Information Display, 1997,5(1):61-63.

[52]N. Moroney, M. D. Fairchild, R. W. G. Hunt, C. J. Li,M. R. Luo, and T. Newman. The CIECAM02 color appearance model[C]. IS&T/SID 10th Color Imag.Conf. 2002:23-27.

[53]Mark D. Fairchild, Garrett M. Johnson, iCAM framework for image appearance, differences, and quality[J]. Journal of Electronic Imaging, 2004, 13(1):126-138.

[54]S.Ouni, M.Chambah, M.Herbin, E.Zagrouba. SCID:Full Reference Spatial Color Image Quality Metric[C].Proc. of SPIE-IS&T Electronic Imaging. SPIE, 2009.

[55]Lim, Jae S.. Two-Dimensional Signal and Image Processing[M]. Englewood Cliffs:Prentice Hall,1990:478-488.

[56]Canny, John. A Computational Approach to Edge Detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1986, 8(6):679-698.

[57]J. L. Mannos and D. J. Sakrison. The effects of a visual fidelity criterion on the encoding of images[J]. IEEE Transactions on Information Theory, 1974, 10(5):525-536.

[58]A. Ahumanda. Simplified vision models for image quality assessment[J]. SID International Symposium Digest of Technical Papers, 1996, 27:397-400.

[59]A. B. Watson. The cortex transform:Rapid computation of simulated neural images[J]. Comput.Vis, Graph., Image Process., 1987, 39:311-327.

[60]F. A. A. Kingdom, A. Hayes, and D. J. Field.Sensitivity to contrast histogram differences in synthetic wavelet-textures[J]. Vis. Res.,1995, 41:585-598.

[61]A.Srivastava, A.B.Lee, E. P.Simoncelli, S.C.Zhu. On advances in statistical modeling of natural images[J]. J.Math. Imag. Vis., 2003, 18:17-33.

[62]E. P. Simoncelli, B. A. Olshausen. Natural image statistics and neural representation[J]. Annu. Rev.Neurosci., 2001, 24:1193-121.

[63]Patrick Le Callet, Florent Autrusseau. Subjective quality assessment IRCCyN/IVC database[CP/OL].http://www.irccyn.ec-nantes.fr/ivcdb/

[64]G.W. Corder, D.I. Foreman. Nonparametric Statistics for Non-Statisticians:A Step-by-Step Approach[M].Hoboken:Wiley, 2009.

[65]Judge, G. G., R. C. Hill, W. E. Griffiths, H. Lutkepohl,and T.-C. Lee. Introduction to the Theory and Practice of Econometrics, Wiley, 1988.

[66]Yu Han, Yunze Cai, Yin Cao, Xiaoming Xu,Monotonic Regression:A New Way For Correlating Subjective And Objective Ratings In Image Quality Research, IEEE Transactions on Image Processing,2012,21(4):2309-2313.

[67]N. Ponomarenko, F. Battisti, K. Egiazarian, J. Astola, V.Lukin. Metrics performance comparison for color image database[C]. Fourth international workshop on video processing and quality metrics for consumer electronics. Scottsdale, 2009:14-16.

[68]Raghu G. Raj, Alan C. Bovik. MICA:A Multilinear ICA Decomposition for Natural Scene Modeling[J].IEEE Transactions On Image Processing, 2008, 17(3):259-271.

[69]Z. Wang, H.R.Sheikh, A.C.Bovik. No-reference perceptual quality assessment of JPEG compressed images[C]. Proceedings of the ICIP’02. New York,2002:477-480.

[70]H. R. Sheikh, A. C. Bovik, L. Cormack. No-reference quality assessment using natural scene statistics:JPEG2000[J]. IEEE Transactions On Image Processing, 2005, 14(11):1918-1927.

猜你喜欢

主观数据库函数
“美好生活”从主观愿望到执政理念的历史性提升
二次函数
第3讲 “函数”复习精讲
二次函数
函数备考精讲
加一点儿主观感受的调料
挣多少钱,才可以买到快乐
数据库
对立与存在
数据库