一种利用用户反馈日志获取图像语义标注方法

2010-01-25时慧琨

通化师范学院学报 2010年12期

时慧琨

(淮南师范学院计算机与信息工程系,安徽淮南 232001)

1 研究背景及问题描述

基于语义的图像检索系统中以图像的语义作为图像检索的依据，而如何获取图像语义目前有各种各样的实现方法，包括利用分类和聚类的技术；对图像及其语义进行建模；利用相关反馈学习图像语义；利用图像周围信息学习的方法等[1].不同的系统实现时均采用了其中的一项或多项技术，其总的目标是建立图像与语义之间的映射关系，从而克服图像底层特征和语义特征间的“语义鸿沟”，实现语义特征之上的基于内容的图像检索(CBIR).

对于利用相关反馈学习图像语义的方法来说，其基本过程是一个循环[2]：①系统返回检索结果.②用户对返回结果添加反馈，指出相关或者不相关图像.③根据用户反馈信息对检索的参数加以调整，重新进行检索，然后回到②.这样一个系统由于将人的因素考虑其中，具有和人类学习方法类似的思路，因此具有较高的检索效果，是一种很有价值的语义映射方法.

但这样的系统有几个缺点：①耗时太长，学习每一个语义概念都需要用户指定相当多的图像范例，而用户的耐心是有限的.②用户在语义检索时可能指定了多个语义概念，而用户的反馈可能针对的只是其中部分的概念，从而造成两次反馈所对应的概念不同，即造成学习过程的“震荡”.

2 解决思路

如何克服以上缺点，参考一下目前因特网上的搜索引擎就可以得到启发，对于目前使用的搜索引擎例如Google、Baidu等来说，其均提供了图像的检索，这种检索的常见形式是用户输入语义关键词，系统返回相关的图像列表，用户如果对返回的图像感兴趣，则可以点击查看大图或者原始图像等其它信息.这个点击实际上就是用户在自己设定的检索条件下对显示图像的一个确认，即认为图像与查询条件是相关的，这实际上就是一个反馈信息.尽管单个用户的点击信息是有限的，但是鉴于搜索引擎工作使用的普及与频繁程度，如果能够把所有用户在使用搜索引擎时的点击情况都记录下来，则这是一个庞大的反馈信息集合.有些搜索引擎也提供了公开的或者仅面向研究使用的搜索日志[3]，研究者也可以开发自己的图像搜索系统供用户使用，并搜集所有用户的点击记录.因此第一个缺点也就可以得到解决.

对于第二个缺点的解决，同样可以从搜索引擎中得到启发.用户在输入查询条件时可能是一个概念或多个概念或句子，而用户的反馈可能只是针对其中的部分概念.因此，应首先对查询条件进行分词将之转换为关键字集合，根据该集合内容进行分析.

(1)关键字集合中只包含单个概念，这是简单的情况，此时，用户的点击肯定是对此概念的确认，按照相关反馈中的权值更新算法直接更新此概念权值即可.

(2)关键字集合中包含多个概念，此时用户的反馈更有可能是对其中的部分概念甚至只是一个概念进行确认，此时可以利用贝叶斯理论计算查询条件中所有概念的后验概率，按照一定的规则选择其中具有最大概率值的概念进行更新即可.

有两点需要注意：①如果用户查询的概念在图像的语义标注中不存在，则需要将此概念加入到图像语义标注中并赋予最初权值，如果已经存在，则需要按一定规则对语义标注信息进行更新.②这个更新的过程并不是一个在线的过程，由于系统分析的是所有用户的日志记录，因此该过程可以在后台离线定时进行.

3 实现过程

在实现时，将用户的每次查询的情况保存为一个查询记录，在这个记录中记录了用户的查询关键词，假设在这次查询中，用户点击了c幅图像，则将此关键词记录保存到c幅图像的查询记录集合中，因此对系统数据库中的图像来说，每幅图像都保存一个查询记录集合，每个集合中记录了该幅图像所对应的查询记录，每个查询记录均对应着一个次数字段，记录该查询记录在实际查询中出现的次数.对此查询记录集合进行分析，即可以进行更新[4].对某个关键词来说，其在所有图像的所有查询中可能出现多次，在一幅图像对应查询关键字记录中也可能出现多次.对一幅图像来说，其可能对应着多个不同的关键字记录集合，并且不同的关键字记录集合出现的次数也均是不同的.如果有两次查询使用的关键字记录相同，则这两次的查询记录在数据库中只保存一次，但是记录中次数字段为2.

假设系统中图像个数为l，其中图像Ii(i=1,2,……，l)对应查询记录集合Qi中共有Ni个记录，则Q={{Q1，ci1},{Q2，ci 2},……，{QNi，ciNi}}，其中第j个记录Qij={t1,t2,……,tM}，对应出现次数为cij，t1,t2,……,tM分别为查询关键词，M为该记录中查询关键词的个数.

(1)M=1，此时记录中关键字只有1个.直接在图像Ii的标注中找到此关键字标注，更新权值.如果没找到，插入此关键字，设定初始权值.

(2)M>1，此时记录中关键字不止一个，此时集合中的关键字为tk(k=1,2,……，m)，设每个关键字与图像相关的后验概率设为P(tk|Ii)，根据贝叶斯公式：

对上式进行化简后可得：

在这样的系统中由于用户的反馈都是正反馈，在权值更新时采用如下规则：标注的初始值设为0.01，如果当前某标注权值为Wold，如果在其后的使用过程中此标注得到n次反馈，则新权值`Wnew=Wold*2n，当计算结果大于1时置为1，此时标注可以看成一个绝对可信的标注.之所以如此更新基于两个原因：①用户对图像的语义把握是比较准确的，当多人图像的语义具有相同看法时，该语义的可信度将增长，并且增长的速度应该大于线性速度.当反馈次数达到一定程度，此标注即是绝对可信的.②如此更新公式保证了不论何时对查询记录进行学习，只要反馈次数相同，其权值更新最终结果都是一样的.对于用户点击错误的情况，由于出错情况比较少，尽管其权值也得到提高，但提高的幅度比较小，如果对每幅图像标注词的个数加以限制并逐步淘汰权值小的标注，则错误标注最终将消失.

4 结束语

对以上的方法在一个基于内容的图像检索系统中加以使用，得到了良好的效果.基于该方法，可以使得图像获得原本没有的语义标注，如果语义标注已存在，则可以对原有标注的准确程度加以改善.如果将该方法同其它学习图像语义映射的方法结合起来，则系统的效果能够进一步提高.

参考文献：

[1]李志欣,施智平,等.图像检索中语义映射方法综述[J].计算机辅助设计与图形学学报,2008,20(8)：1085-1096.

[2]Zhou X S, Huang T S. Relevance Feedback in Image Retrieval: A Comprehensive Review[J]. Multimedia Systems.2003,8(6):536-544.

[3]Sogou Labs.用户查询日志(SogouQ)[Z]. http://www.sogou.com/labs/resources.html.2008.

[4]Zheng Chen, Liu Wen-yin, et al. Web mining for Web image retrieval[J]. Journal of the American Society for Information Science and Technology,2001,52:831-839.