自然场景图像中的文本检测方法研究

2016-03-25李东勤周万怀

重庆科技学院学报（自然科学版） 2016年6期

关键词：字符边缘特征

李东勤王芳周万怀

(安徽财经大学管理科学与工程学院，安徽蚌埠 233030)

自然场景图像中的文本检测方法研究

李东勤王芳周万怀

(安徽财经大学管理科学与工程学院，安徽蚌埠 233030)

研究自然场景中的文本检测与定位方法，总结文本检测的研究现状，并对主流算法进行了分类和对比。

自然场景图像；文本检测；文本定位；文本/非文本分类

从自然场景图像中自动提取其中的文字信息，成为计算机视觉、模式识别、文档分析识别等技术方向的一个研究热点。自然场景文字提取与识别技术在基于内容的图像检索、智能交通、智能翻译、视频内容分析等领域应用广泛。自然场景图像中的文本提取包括3个核心技术：文本检测与定位、文本分割与增强、文本识别。文本检测与定位技术用于确定自然场景图像中文本的位置，并找出这些文本的边界。文本分割技术用于去除文本周围的背景，从而简化后面的文本识别问题。对分割之后的文本作进一步增强非常重要，因为自然场景图像中的文本很多时候分辨率很低、模糊且有噪声。文本识别是对前面处理之后的图像进行识别，从而最终得到相应的文本信息。

1 文本检测问题难点

传统的光学字符识别(OCR)软件仅用于文档图像。文档图像一般通过高精度扫描得到，具有分辨率高、背景简单等特点，文字识别的难度较小。相比之下，自然场景图像更加复杂，文本检测与定位更加困难。

普通文档布局格式通常相对固定，内容以字符为主；而自然场景图像中的文本没有明显的布局特征与规律可循，可能在图像中任何不确定的位置出现。

普通文档图像背景通常比较单一，往往为白底黑字；而自然场景图像中的文本背景错综复杂，可出现颜色的变化、噪声的叠加及光照亮度的变化等。

普通文档图像一般是由光电扫描设备获得，几乎不会引起几何变形；而自然场景中的图像，受移动终端设备的拍摄角度、光照均匀度等因素影响，会发生几何变形或透视变形等。

自然场景图像虽比较复杂，但自然场景下的文本特征仍有规律可循：

(1) 文本的笔画特征。笔画是文本图像的一个显著特征，与背景存在较大差异，其宽度、纹理、颜色及强度都与背景大不相同。笔画信息可作为自然场景图像中文本检测与定位的一个重要特征。

(2) 文本的颜色和亮度。自然场景图像中的文本颜色、亮度与其背景相差较大，很容易发现及辨识。尽管有些场景中文本颜色与背景相近，但文本的边缘与背景必然明显可分，否则人眼也无法认知这些文本。文本颜色与亮度可作为自然场景中文本检测与定位的另一个重要特征。

2 文本检测与定位算法研究

研究人员提出的多种复杂场景文本检测定位算法，总体可分为4类：基于连通区域的方法、基于纹理的方法、基于边缘的方法和基于机器学习的方法。

2.1 基于连通区域的方法

采用基于连通区域分析的方法，首先需假设同一区域的字符具有相似的颜色和亮度，并且与背景区域的颜色存在较大差异，可采用自底向上的方法从图像中提取连通区域；然后利用几何约束构造启发式规则进行连通域分析，合并子区域，得到最终的文本区域。

Shivakumara等人提出了利用频域拉普拉斯(Laplacian)算子和连通元骨架与分割技术进行视频文本检测的方法[1]。文中所针对的视频文本与自然场景图像中的文本类似，文本任意方向排列，但均呈直线。首先，使用傅里叶-拉普拉斯算子(Fourier-Laplacian)对输入图像进行滤波，然后运用K均值聚类法来确认最大差异图的候选文本区域的像素；其次，获取各个连通元的骨架并将连通元分成“简单”和“复杂”两类；保留“简单”的连通元，将“复杂”的连通元进一步分割成多个“简单”的连通元，最后计算字符串的平直度和边缘强度，排除非文本区域。该方法用于处理视频中水平排列中文文本时，召回率和精确度分别是79%和75%；用于水平排列英文文本时，召回率和精确度分别是86%和82%；用于非水平排列中文文本时，召回率和精确度分别是81%和74%；用于非水平排列英文文本时，召回率和准确度分别为85%和77%；用于ICDAR2003数据集时，召回率和精确度分别是86%和76%；用于Microsoft Asia数据集时，召回率和精确度分别是93%和81%。

Epshtein等人首先利用沿着边缘点梯度方向的射线对边缘图像进行笔画宽度变换，然后在笔画宽度变换图像中通过联通域分析得到一系列连通分量，接着利用文本分量笔画宽度等特性，定义验证规则，过滤不符合规则的非文本分量，最后通过布局分析和文本行聚合，将验证后的候选文本分量聚合成文本行，得到最终的文本区域[2]。该算法考虑了字符的笔画宽度特性，用于自然场景图像中的文本检测与定位效果较好。

Chen等人提出边缘增强的最稳定区域(Maximally Stable Extremal Regions，MSER)检测方法，用于候选字符提取，然后利用几何与笔画宽度信息定义过滤机制，用于去除非文本对象，最后将候选字符聚合成文本行[3]。ICDAR(International Conference on Document Analysis and Recognition)数据集的实验结果表明，该算法对于自然场景图像具有很好的定位功能。

Agnihotri和 Dimitrovalg首先对图像进行增强处理，然后在RGB色彩空间中取红色元素，利用红色元素得到文本的高反差边缘信息，对这些边缘进行处理得到一个表示连通分量的二值图像，最后将经过分割处理后的文本区域送入OCR进行识别[4]。

Shi等人提出了一种基于最大稳定极值区域图模型的场景文字检测方法。在原始图像中检测MSERs，将MSERs中的不规则图形标记为文本区域，利用一组精心设计的特征组合去评估MSER节点是否为真实的文本区域[5]。

Yi等人提出了一种利用局部梯度特征进行文本区域检测的方法。利用字符元素的颜色具有均匀性这一特点分割图像，得到候选文本字符，再根据字符大小、排列方式等特征对候选文本字符进行合并处理，得到最后的文本区域[6]。

2.2 基于边缘特征的方法

自然场景中的文本都具有标识作用，如广告、标语等。这些文本的颜色、亮度与背景都存在不同的对比度，具有丰富的边缘信息。因此，边缘特征成为了文本区域检测中广泛使用的特征之一。

Zhang等人提出了一种基于角点和笔画宽度的多尺度视频文本检测方法。首先在不同尺度中进行角点检测，生成候选文本区域，再利用笔画宽度的一些特性对非文本区域进行过滤[7]。

Meng等人提出了一种基于边缘的文本定位方法。通过两步边缘进行分析，即候选边缘合并和边缘分类。在候选边缘合并阶段，将输入的图像边缘分成一些小段，然后对具有像素颜色和笔画宽度的相邻边缘段进行合并[8]。通过这一步，使每一个字符都可由一个边缘段集合进行描述。由于自然环境中很少出现单个文字，因此，在边缘分类阶段，釆用基于字符和字符链特征的分类器将候选文本区域边缘连接成文本行。在公开数据库ICDAR2011和 SVT(Street View Text Database)上进行了测试，结果表明该算法的性能优于其他类似算法。

Zhao等人利用角点检测的方法得到视频图像的候选文本区域，然后根据文本区域的几何结构特征制定了一系列启发式规则，利用这些规则对检测到的候选文本区域进行判定，得到最终的文本区域[9]。

基于边缘的文本定位方法时间复杂度低，比较适用于图像中文本与背景对比度相差较大的情况，文本定位准确率更高。可以有效地定位图像中不同字体、大小、排列方向的文本，然而当遇到背景十分复杂的文本图像时，误检率较高。自然场景中树枝、树叶等一些具有强烈边缘信息的元素易被误判为文本。

2.3 基于纹理特征的方法

基于纹理特征的文本检测方法将文本视为一种特殊的纹理，这种纹理特征是由于字符特定的排列方向以及字符颜色与背景颜色周期性变化而产生的。通常采用Gabor变换、小波变换和傅里叶变换等方法检测文本的纹理特征，根据纹理特征得到文本区域。

Kim等人将像素的亮度值作为SVM分类器的输入值，根据纹理特征将视频图像中的像素点区分为文本像素和非文本像素，最后利用连通域分析方法得到文本区域[10]。

Shivakumara提出了一种基于傅里叶统计特征的视频文本定位方法，对输入图像的RGB三通道分别进行傅里叶变换，采用滑动窗口提取傅里叶统计特征，使用K均值算法将提取的特征分为文本和背景2类[11]。进行投影分析后，采用基于知识规则筛选非文本区域，最后给出定位结果。

Chun等人提出了一种结合快速傅里叶变换和神经网络的文本区域定位算法，他们首先使用快速傅里叶变换得到文本区域的高频分量，然后通过训练好的神经网络对这些高频分量进行判断，得到候选文本区域，最后通过一些经验规则来得到最终的文本区域。

基于纹理的方法受文本字体、大小的影响较小，可以识别各类文字，具有鲁棒性，通用性较好；但是这种方法实现起来计算复杂，比较耗时[12]。另外，如何选用有效的纹理特征是该类算法的一个难点。

2.4 基于机器学习的方法

采用基于机器学习的文本检测定位方法，首先采集训练样本，提取出有效的文本特征，用分类器进行训练，分类器通常有SVM、BP 神经网络、随机森林等；然后用基于区域、纹理或边缘的方法进行文本初步定位，得到候选文本区域，并提取出候选文本区域的特征，送入已经训练好的分类器进行判级分类；最后将得到的文本区域进行水平或垂直方向合并，得到最终的文本区域。

Shao等人通过对字符分类提出了一个定位文本的方法。首先利用双边缘模型从输入图像中提取and-valley图AVI和and-ridge 图ARI；然后分别从AVI和ARI中检测连通元，并将这些连通元送入一个支持向量机(Support Vector Machine, SVM)中判别其为字符或非字符；最后通过合并所有可能的字符来生成文本区域[13]。

Wang等人从大量视频帧图像中选取了1 000个文本区域和 2 000个非文本区域进行训练，用支持向量机SVM根据预先标记好的数据来确定文本区域[14]。

Jung等人设计了一种用于检测文本区域的笔画滤波器，然后提取灰度密度和常量梯度向量，用支持向量机SVM训练这些特征，进行文本区域分类[15]。

3 自然场景图像文本检测存在的问题

自然场景文本检测是实现文本识别的前提条件，其检测性能将直接影响到后续的识别结果。然而根据文档分析与识别国际会议(ICDAR)组织的自然场景文本检测国际竞赛的最新结果[16]，竞赛冠军的召回率为66.45%、精度为88.47%、综合评价指标为75.89%。对于一般性自然场景文本而言，即便是最顶级的文本检测算法，其检测性能也很难达到实用水平。该技术仍有以下问题亟待解决：

(1) 算法缺乏通用性。目前大部分自然场景文本检测算法主要针对水平方向排列的文本区域展开研究，然而在现实自然场景中，文字的排列方向是任意的，因此，现有的算法很难有效地对任意方向排列的文字区域进行检测。

(2) 多数检测算法仅能处理单一性文字语种。目前大部分自然场景文本检测算法主要针对英文和阿拉伯数字所组成的文本区域进行检测，少部分检测算法针对中文文字区域进行检测，极少部分检测算法针对其他语种或者混合语种文字区域进行检测。

(3) 处理复杂自然场景时缺乏鲁棒性。首先，复杂自然场景中一些与文字相似的背景区域比较难以剔除从而导致虚警，同时文字区域的误识别也会导致漏检。自然场景中叠加文字区域之间相互干扰，从而导致此类情况下的文字检测问题未能得到有效的解决。此外，很难有效地对小尺寸文字区域进行检测，即便可以对小尺寸文字进行放大处理，但同时也会降低文字与背景之间的对比度。

自然场景类文本检测是极具挑战性的图像处理工作。目前上述类似问题尚未得到解决，因此自然场景文本检测系统较难设计，此类系统还很少见。现有已初步应用的自然场景文字检测系统只能处理比较简单的情况(如：车牌检测、特定约束条件下的文字检测等)，而复杂自然场景图像中的文本检测技术远没有达到实际应用的水平，仍需深入研究。

[1] SHIVAKUMARA P，PHAN T Q，TAN C L.A Laplacian Approach to Multi-Oriented Text Detection in Video [J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2011,33(2)：412-419.

[2] EPSHTEIN B，OFEK E，WEXLER Y.Detecting Text in Natural Scenes With Stroke Width Transform [C]∥Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition.2010：2963-2970.

[3] CHEN H，TSAI S S，SCHROTH G，et al.Robust Text Detection in NaturaImages With Edge-Enhanced Maximally Stable Extremal Regions[C]∥Image Processing (ICIP)，2011 18th IEEE International Conference.2011：2609-2612.

[4] AGNIHOTRI L，DIMITROVALG N.Text Detection for Video Analysis[C]∥Proceeding International Conference on Multimedia Computing and Systems.1999：109-113.

[5] SHI C Z，WANG C H，XIAO B H,et al.Scene Text Detection Using Graph Model Built Upon Maximally Stable External Regions[J].Pattern Recognition Letters，2013，34(2)：107-116.

[6] YI C，TIAN Y.Text String Detection From Natural Scenes by Structure-Based Partition and Grouping[G].IEEE Transactions on Image Processing，2011，20(9)：2594-2605.

[7] ZHANG B Y，LIU J F，TANG X L.Multi-Scale Video Text Detection Based on Corner and Stroke Width Verification[C]∥ Visual Communications and Image Processing，Kuching.2013：17-20.

[8] MENG Q，SONG Y H，ZHANG Y L，et al.Text Detection in Natural Scene With Edge Analysis[C]∥International Conference on Image Processing (ICIP2013).2013：4151-4155.

[9] ZHAO X，LIN K H，FU Y.Text from Corners：A Novel Approach to Detect Text and Caption in Videos[J].IEEE Transactions on Image Processing，2011，20(3)：790-799.

[10] KIM K I，JUNG K，KIM J H.Texture-based Approach for Text Detection in Images Using Support Vector Machines and Continuously Adaptive Mean Shift Algorithm[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2003，25(12)：1631-1639.

[11] SHIVAKUMARA P，PHAN T Q，TAN C L.New Fourier Statistical Features in RGB Space for Video Text Detection[J].IEEE Transactions on Circuits and Systems for Video Technology,2010，20 (11)：1520-1532.

[12] CHUN B T，BAE Y，KIM T Y.Automatic Text Extraction in Digital Videos Using FFT and Neural Network[C]∥ Proceedings of IEEE International Conference on Fuzzy Systems.1999：1112-1115.

[13] SHAO Y X，WANG C H，XIAO B H,et al.Text Detection in Natural Images Based on Character Classification，in Advances in Multimedia Information Processing-PCM 2010[M].Springer Berlin：[s.n.]，2011：736-746.

[14] WANG X，HUANG L，LIU C.A New Block Partitioned Text Feature for Text Verification[C]∥Proceedings of International Conference on Document Analysis and Recognition.2009：366-370.

[15] JUNG C，LIU Q，KIM J.A Stroke Filter and Its Application to Text Localization[J].Pattern Recognition Letters，2009，30(2)：114-122.

[16] KARATZAS D，SHAFAIT F，UCHIDA S，et al.ICDAR 2013 Robust Reading Competition[C]∥Proceedings of the 12th International Conference on Document Analysis and Recognition.2013：1484-1493.

Research on Text Detection of Natural Scene Image

LIDongqinWANGFangZHOUWanhuai

(College of Management Science and Engineering, Anhui University of Finance and Economics,Bengbu Anhui 233030, China)

This paper focuses on the research of the key technologies of text detection and text location from natural scene images. And based on research status of text detection, a comparison study is conducted on categorized algorithm.

natural scene image; text detection; text location; text/non-text classification

2016-08-26

国家自然科学基金项目“基于近红外光谱学的机采籽棉杂质含量快速检测方法研究”(31601224)；安徽财经大学2016年度校级科研项目“自然场景图像文本信息提取关键问题研究”(ACKY1652)

李东勤(1981 — )，女，江苏盐城人，硕士，讲师，研究方向为图像处理、模式识别、数字水印。

TP317

1673-1980(2016)06-0108-04