利用Ontology改进的自动化图像标注方法

2012-07-27周运，刘栋

计算机工程与设计 2012年7期

周运，刘栋

（河南师范大学计算机与信息技术学院，河南新乡453007）

0 引言

由系统自动处理、分析、分类和解释图像的方法研究已成为目前研究的热点。目前国内外利用本体对图像进行标注主要是把图像作为基本单位进行标注［1－5］，很少以图像中的对象为基本单位进行区块分析和标注。这篇论文提出一个新的方法，以图像底层特征为基础，利用建构于系统中的本体将知识，当系统用底层特征分析、理解图像时，结合知识本体去判断图像中对象与对象间的相互关系，能更准确的理解图像中所包含的对象及其深层语义，推导出对象与对象在现实世界中的相关性，更准确地对图像内容做出标注。

1 基于特征值的图像标注

1.1 基本特征数据预处理

预处理搜集大量主题鲜明的图片以便进行精确的学习，首先将图像中有意义的实体对象手动勾勒出其轮廓，这里所取的实体对象如有天空、草原、大象、海豚……等，如图1所示。

然后作特征参数提取，得到对象的24维特征向量。维度的取法包括对象的三基色RGB及其标准差，线性变换后得到的色调、饱和度、亮度值及其标准差，利用傅里叶变换得到的频率域数值信息，包括实、虚部直流频率和实、虚部交流低、中、高频率值。

图1 原始图像经分割后的区块

每个特征属性向量均有24维，第25维为所属类别，最后将同样类别的特征向量归类，得到对象类别的编码向量，将其集合而成为编码书。

1.2 对象的主成分分析

主成分分析［6］是图像识别中常用的方法。其基本思想是对原始数据空间通过线性变换，找出一个具有代表性的子空间。原始数据投影到此子空间后，依然保持其主要的分布情况，但同时能大大降低原始数据的维度，这样对数据的运算与比对就变得简单了。主成分分析法的算法如下：

（1）搜集M个数据，并考虑有N个维度，即代表每个数据有N个变量；

（2）标准化，即算出各维度数据的平均值，将每个变量值减去所对应维度的平均值；

（4）计算此协方差矩阵的特征值和特征向量；

（5）以特征向量为基础将原始数据作线性变换；

（6）找出要考虑的特征值及其对应的特征向量，即为主成分；

（7）将原始数据投影到以主成分为基础的子空间上，得到降低维度的新数据。

这里将原先24维度的数据降低成8维度，此8维度就是主成分。在24维度中因为直流频率为实数，因此虚部直流频率皆为0，不列入主成分分析考虑范围内。最后根据这些主成分对属性向量进行转换。虽然有少许的失真，但计算量也从24维降低为8维。原始数据以此8个主成分为基底投影到较低维度的空间。

1.3 学习式向量量化

学习式向量量化（LVQ）［7－8］方法是通过自动学习的演进过程，进行即时的微调，使各个类别的代表点趋近最佳值。现在常用改进的学习式向量量化算法LVQ3，在利用LVQ3算法前，要有一个初始的聚类，利用“K－means”聚类法可得到初始的聚类。另外，定义任意两个已确定所属类别向量点的重叠中心地带为窗口，窗口的宽度主要依据向量的个数来决定。LVQ3算法如下：

（1）利用一个适当的聚类算法建立一个初始的聚类，其中每一类别均有一些特征向量点代表该类别；

（2）挑选一个向量点X，并判断它是否落于容易被分错地带的窗口中，若是，则执行第（3）步骤，否则，跳到第（4）步骤；

（3）寻找最接近向量X的两个已知类别向量Ci和Cj，若X与Cj属于同一类但与Ci属于不同类，则执行以下的调整

若X、Ci和Cj均属于同一类，则执行以下的调整

其中k∈（i，j），ε值主要依据窗口的大小来决定，α是一个很小的常数，并随着重复的步骤递减。

若X、Ci和Cj均为不同类，则不作任何调整；

（4）若已经达到合理的重复次数，则结束。否则，回到第（2）步骤继续调整向量点。

把经过降维的学习数据，利用学习式向量量化算法，进行监督式学习。由于要知道分类的个数，可利用K－means算法制作出初始的编码书，然后运用学习式向量量化，形成对象的编码书。

1.4 数据比对与自动标注

（1）颜色为主的影像分割：颜色为主的图像分割是将图像中不同颜色的区域分割出来，大多是将图像中对象的边缘找出来，然后把具有连续性的区域结合起来。利用“Mean shift”［3］分割算法进行图像分割效果不错。方法是先把图像的色彩转换到特征域的颜色模型，再对特征域的颜色模型做群聚来达到分割的效果。首先将RGB值变换成线性的HSV模型来做图像分割。将图像变换到HSV的色彩特征域中，会依据不同的色彩表现产生出不同密度的区域，在密度高与密度低的区域之间，即为区域的边界。而区域中密度最高的点称为此区域的中心点。若图像中的每个点对应到同一族群的范围，将被归类为同一类。如此反复进行，将图像分割为数个区块。

（2）预测对象区块所属类别：从所分割出来的对象区块提取其颜色、纹理等特征，同样，通过降维投影到学习数据编码书的子空间，再利用欧氏距离公式［9］来判断对象所属类别。对象Oi与对象Oj之间的距离为：dij＝，其中p为对象向量维度，这里取p＝8，xj为类别代表点的值。

2 利用本体论辅助图像分类与标注

利用本体论所订立的规格、限制与推理机制［3，10－14］来检验及修正上面所提的初始标注结果。建构了3个本体，分别是对象本体、位置本体和对象与对象间关系本体，来增加判断对象的准确率。对象本体用来定义对象的特征与属性描述，包含颜色、纹理、形状、位置和大小。颜色包含了基本的像素的三基色；纹理包含了利用离散傅利叶转换所表示的频率值；位置描述对象边界矩形的最小与最大X坐标和最小与最大的Y坐标。如图2所示。

图2 对象本体

位置本体主要是描述空间方位的规格定义。要考虑绝对位置和相对位置关系。

绝对位置：对象在图片中的绝对位置是将一个图片分成九等分，依左至右、由上到下，分别为左上角、上方位置、右上角、左手边、中间位置、右手边、左下角、下方位置、右下角，对象最大比例所落的位置，即为该对象的绝对位置。如图3所示。

图3 绝对位置本体

相对位置关系：相对位置关系主要考虑在两个对象间相对空间关系的比较，有：在上方、在下方、在左方、在右方、在附近、在远方、在内部。这些相对位置关系中，两两之间有些还具有反向关系、传递关系或对称关系。这些互相之间的关系可以利用本体来详细定义与表示。如图4所示。

对象与对象间关系本体描述对象之间相互存在合理性，现实环境中对象之间所具有的位置特征是有一些规则的，如：鲸鱼是生存在海洋中的动物，因此鲸鱼与海洋的位置关系，通常为鲸鱼在海里面，或者鲸鱼在海洋上面。

图4 相对位置关系本体

对象与对象关系本体结合了对象本体与位置本体来建立依存关系。图5为建构的对象与对象关系本体。

图5 对象与对象关系本体

要确立对象位置，需框出能包含对象区块的最小矩形，称之为边界矩形，运用边界矩形来作为对象彼此位置关系判定的单位。边界矩形是由该对象所在的图像平行于x轴自最上方与最下方最先碰到对象轮廓的这两条直线与平行于y轴自最左方与最右方最先碰到对象轮廓的两直线，由此四直线所围成的矩形，即为对象的边界矩形，令对象i的边界矩形分别的宽与高为2wi，2hi，矩形中心坐标为。接下来对相对位置关系作精确的定义：

首先，经过预测对象区块所属类别，从中可得知待测对象对于系统所认识的每一类别可能性的比率，而且根据对象本体论，系统会确立对象的位置。接着，将预测比率高的对象，开始进行其关系与基本限制的检验。如：把猜测为天空的对象作检验，对象天空将增加绝对位置的限制条件，若天空的绝对位置若只占有图片的下半部是不合理的，则此对象的猜测可能有误，将被修正推测为第二个高比率相似的类别，同样作高层次语意关系的检验直到合理为止，最后才能拿此确定对象与其它对象作比较，辅助其它对象的推测。前面所提及3个本体的规格定义，将为对象间建立一些限制规则，以下是定义的部分条件限制示例，共有5类规则：

规则1，如：天空不会在海洋下方。

规则2，如：大象为陆上动物，因此大象在陆地上。

利用本体的推理能力，与反向性关系推论出下列衍生出来的事实：

规则3，如：若大象在地面上，则地面在大象下方。

利用本体的推理能力，与传递性关系推论出下列衍生出来的事实：

规则4，如：若天空在大象上方且大象在地面上，则天空在地面上方。

利用本体的推理能力，与对称性关系推论出下列衍生出来的事实：

规则5，如：若大象附近有树林，则树林附近有大象。

可以利用诸如此类的规则，作为辅助判断仅以特征为基础的图像识别结果的正确性，找出最合理的答案。还有利用这些相对位置关系去提供更深层的对象语意关系。

定义好本体中对象与对象之间的条件限制后，经过学习式向量量化后所预测出来的结果与本体论配合，利用以下步骤重新确认出图片中的对象：

（1）首先检查是否有被预测出天空这个对象，如果有则利用绝对位置来判定是否为正确的位置，没有符合天空绝对位置的限制条件，则选择下一个比率的对象。如果图像中没有被预测出天空，则跳过此步骤。

（2）查询其它背景对象（如天空、草原），将比率高于一定值的背景对象认知为已知的确定对象。

（3）利用已知的确定对象，与其它对象做相对位置的分析，若不违反相对位置的条件限制，则加入已确立的对象中；反之，则寻找下一个比率的对象，继续比对相对位置的限制条件，直到比率为0则停止比对。

3 实验结果与分析

使用WEKA软件来做数据分析。WEKA是一套用于解决海量数据中数据挖掘与数据分析的软件，具有开放性的程序代码以供使用者依据其需求作修正。这里利用查准率与查全率来进行评估。

评估参数选取了运用主成分分析降维处理的学习对象共732个，分9类，分别为天空、海洋、草原、地面、沙滩、树林、大象、棕马与海豚。利用K－means聚类法制作一个初始编码书，再利用学习式向量量化学习。其中，设定学习速率为0.3，训练终止次数为2000次，中心地带窗口的大小为0.2，调整出更好的编码书，进行学习。然后进行测试的337张图像中共含有1126个对象，加入本体辅助前后查准率和查全率的变化情况，如图6所示。

由图6可以看出，加入本体辅助后查准率与查全率的确均比前者各个类别有所提升，所以本体论的确是有助于理解图像。

4 结束语

提出以本体论建构的知识概念与关系，帮助系统来识别图片对象的方法灵感来自于人们如何学习、辨认与了解一个实体对象的过程。利用图像的高阶语意和对象与对象间相似性与关联性来做判断图像。结果显示本体论的确能修正仅以底层特征识别图像产生错误识别的问题。但这里也存在一些局限性，研究的重心放在了对所有已学习过的对象做到精确地识别。在学习数据的处理中，利用手动圈选对象轮廓，是为了在机器学习阶段，能尽量不受到噪声影响而得到最准确的可运用的学习结果，因为学习结果的查准率与查全率是一个基准数据，运用此学习结果来预测数据，准确度最高也只能与学习时准确度持平。所以下一步研究还应当加入判断测试对象是否在已知类别的机制，当测试对象不在已知类别时，应能提供一种自学习机制。

图6 加入本体辅助前后的图像标注结果比较

［1］Halaschek－Wiener.Annotation and provenance tracking in semantic web photo libraries［C］.Proceedings of the International Conference on Provenance and Annotation of Data，2006：82－89.

［2］Khan.Standards for image annotation using semantic web［J］.Computer Standards ＆Interfaces，2007，29（2）：196－204.

［3］Cimino JJ，Zhu X.The practical impact of ontologies on biomedical informatics［J］.Methods Inf Med，2006，45（Suppl 1）：124－135.

［4］Barnard K，Duygulu P，Guru R，et al.The effects of segmentation and feature choice in a translation model of object recognition［C］.Proceedings on Computer Vision and Pattern Recognition，2008：675－682.

［5］Chen Y，Wang J Z.Image categorization by learning and reasoning with regions［J］.Journal of Machine Learning Research，2007，5：913－939.

［6］Langlotz.RadLex：A new method for indexing online educational materials［J］.Radiographics，2006，26（6）：1595－1597.

［7］Mueen A，Zainuddin R，Baba M.Automatic multilevel medical image annotation and retrieval［J］.J Digit Imaging，2007，21（3）：1123－1130.

［8］Petridis.Knowledge representation and semantic annotation of multimedia content［J］.Iee Proceedings－Vision Image and Signal Processing，2006，153（3）：255－262.

［9］Rubin DL.Creating and curating a terminology for radiology：Ontology modeling and analysis［J］.J Digit Imaging，2008，21（4）：343－351.

［10］Ruttenberg A.Advancing translational research with the semantic web［J］.BMC Bioinformatics，2007，8（3）：S2.

［11］Saadawi GM.Definition of an XML markup language for clinical laboratory procedures and comparison with generic XML markup［J］.Clin Chem，2006，52（10）：1943－1951.

［12］Troncy.Image annotation on the semantic web［R］.W3C Incubator Group Report，2007.http：//www.w3.org/2005/Incubator/mmsem/XGR－imageannotation/.

［13］Whetzel PL，Parkinson H，Stoeckert CJ Jr.Using ontologies to annotate microarray experiments［J］.Methods Enzymol，2006，411：325－339.

［14］Carneiro.Supervised learning of semantic classes for image annotation and retrieval［J］.IEEE Trans Pattern Anal Mach Intell，2007，29（3）：394－410.