基于小波和形态学的图像文本定位方法

2013-12-19陈国龙

宿州学院学报 2013年2期

宋文，陈国龙

1.淮北师范大学计算机科学与技术学院，安徽淮北，235000 2.宿州学院信息工程学院，安徽宿州，234000

图像中的文本信息通常包含了图像的高层语义内容，为完整地理解图像提供了重要依据，捕获并且识别这些文本信息已经成为许多学者研究的热点问题。现有的文本定位方法主要有基于连通区域的定位方法[1]、基于纹理的定位方法[2]和基于边缘的定位方法[3]。

本文提出一种基于小波和形态学的图像文本定位方法，该方法利用小波变换实现文本区域的粗检测，再通过形态学的相关技术实现文本区域的细定位，文本定位效果较好。

1 基于小波和形态学的图像文本定位

本文提出的基于小波和形态学的图像文本定位方法主要包括如下3个部分：小波分解与重构、基于小波的文本区域的粗检测、基于形态学的文本区域的细定位。文本定位过程如图1所示。

图1 文本定位过程图

1.1 小波分解与重构

金字塔结构算法是小波分解的理论基础，该算法是对图像进行离散小波分解，分解过程中用到一组低通分解滤波器(L)和高通分解滤波器(H)。经小波分解后的原始图像依据不同的频带和分辨率被分解成4个子带图像{LL、LH、HL、HH}，如图2所示，

图2 小波分解示意图

其中，低频用L表示，高频用H表示，一级或二级小波分解用下标1、2表示。特别指出，基于递归操作的思想，可对低频子带进行二级小波分解，最终被分解成{LL2、LH2、HL2、HH2}共4个更精细的子带。

4个子带的关系如下[4]:

(1)LL：垂直和水平方向低频子带，该频带是图像内容的近似表达，其保留了原始图像的基本信息。

(2)LH：水平方向低频和垂直方向高频子带，图像垂直方向的灰度变化信息和边缘信息被存放在该高频子带中。

(3)HL：垂直方向低频和水平方向高频子带，图像水平方向的灰度变化信息和边缘信息被存放在该高频子带中。

(4)HH：垂直和水平方向高频子带，图像对角线方向的高频信息被存放在该子带中，它除了描述水平方向和垂直方向上的图像灰度的综合变化信息外，还描述了少量的边缘信息。

由以上关系可以看出，3个高频子带能反映出图像在水平方向、垂直方向、对角方向的边缘纹理信息和其他的细节特征[5]，这些信息及特征为文本信息的精确定位提供了重要的依据。

由于图像中文本信息的检测效果在很大程度上取决于小波分解的层数，分解层数少，则检测效果差，分解层数过多，不仅会减少图像所包含的信息，同时也会增加小波分解后特征选择的难度，所以本文采用Biorthogonal中的双正交小波基bior6.8对原始图像进行一级小波分解与重构。

对图3(a)进行一级小波分解，结果如图3(b)所示。可以看出，经一级小波分解后的图像中的文本区域边缘在3个高频子带中都有突出显示，并且各高频子带所反映的信息基本相同，但是在低频子带上仅仅体现了灰度变化不大的边缘、纹理信息，因此本文只考虑高频子带。

图3 图像一级小波分解

因为只考虑高频子带，所以将图3(b)的低频子带的小波分解系数置成0后再进行小波重构，结果如图4所示，可以看出，图像中的文本信息突出显示，为提取文本区域奠定了基础。

图4 图像一级小波重构

1.2 基于小波的文本区域的粗检测

多分辨、多分析是小波变换的最大特点，基于这个特点，可以选择不同的距离(即不同的尺度)对事物进行观察分析，从而实现对事物整体轮廓和局部细节的把握。

本文对图4分别进行一尺度、二尺度的水平与垂直重建，结果如图5(a)和(b)所示，相对于一尺度的水平与垂直方向小波重构的图像，二尺度的水平与垂直方向小波重构后的图像中信息的整体轮廓更加清晰，特别是文本信息的边缘密集。

为了实现文本区域的粗检测，本文采用二尺度的图像小波重构与形态学处理中的膨胀技术相结合的复合方法。文本区域的粗检测的具体步骤如下：

(1)对低频系数设置为零后重构的图像进行二尺度的水平与垂直重构。

图5 图像小波重构

(2)对二尺度水平与垂直的小波重构后的特征图像进行阈值二值化。图6为对图5(b)进行阈值二值化的结果。

图6 阈值二值化

(3)生成候选文本块区域。从图6看出，图像中存在一些虚假的非文本区域，要想提取出真实的文本区域，需结合形态学中的膨胀技术，使相邻的文字边缘连通起来形成连通区域块。

图像中的文字排列方向一般以水平或者倾斜方向排列为主，上下相邻行的文本区域可能会粘连在一起。为此，本文采用膨胀方向为水平方向、膨胀半径为10的圆盘型结构元素SE，对图6进行形态学处理，结果如图7所示，文本区域和非文本区域都各自形成连通区域，即完成了图像中文本区域的粗检测。

图7 水平膨胀后的图像

1.3 基于形态学的文本区域的细定位

文本区域的细定位就是剔除虚假的非文本连通区域，细定位的过程如下：

(1)利用bwlabel函数将图7中的所有的连通分量标记出来。

(2)通过regionprops函数计算出图像中各连通区域中像素的总个数。

(3)按照循环遍历的方法遍历每个连通区域中的所有像素，把非文本连通域中的像素用黑色表示，从而剔除图像中那些非文本区域，如图8所示。

(4)提取图8中的文本连通区域并进行外接矩形标定，最终完成文本区域的细定位，结果如图9所示。

图8 去除虚假的非文本区域图9 文本区域定位结果

2 实验结果分析

将本文提出的基于小波和形态学的图像文本定位方法与基于边缘的方法进行比较，可以看出，基于边缘的文本区域定位方法将文本区域标记出来的同时也将一些非文本区域标记出来，显然提取的文本区域不够准确，而本文的方法很好地实现了文本区域的定位。

图10 实验结果分析

3 结论

针对图像中文本定位问题，本文提出一种基于小波和形态学的图像文本定位方法。与基于边缘的图像文本定位方法相比，本文方法所提取的文本区域的背景干净，更好地完成了文本与背景的分离，取得了较好的定位效果。

参考文献：

[1]Song Yan,Liu An-an,Pang Lin.A novel image text extraction method based on k-means clustering[C]//Portland,OR:Seventh IEEE ACIS International Conference on Computer and Information Science,2008:185-190

[2]Tebourbi R,Belhadj Z.A texture based multispectral images indexing[C].Tunisia：12th IEEE International Conference on Eletronics,Circuits and Systems,Gammarth,2005:1-4

[3]Shivakumar P，Huang Weihua，Chew L T.An efficient edge based technique for text detection in video frames[C]//Nara:The Eighth IAPR International Workshop on Document Analysis Systems,2008:307-314

[4]沈庆华，李树涛，李怡.基于小波变换和形态学的复杂背景文本定位[C]//张家界：第二十六届中国控制会议论文集，2007：467-471

[5]王丽，卢迪，吕剑飞.一种基于小波方向对比度的多聚焦图像融合方法[J].中国图象图形学报，2008，13(1)：145-150