基于实例分割方法的场景文本检测算法研究

2022-05-25徐莹

现代计算机 2022年6期

徐莹

（西南民族大学电子信息学院，成都 610041）

0 引言

在二十一世纪的今天，文字和我们的日常生活已经密不可分，我们描述世间万物都需要用到文字。尤其是在现在这个信息不断发展的时代，在互联网技术的不断发展下，大量的文字也以图像或视频的方式被保存下来。人们迫切的希望可以检测识别这些图像或是视频中的文字，来帮助我们更好地理解。如今，文字已经成为我们生活中不可或缺的一部分。

目前对传统电子文档中的文字进行检测的方法已经比较成熟，但自然场景中的文本检测技术仍然面临着很多问题。和传统电子文档中的背景相比较，自然场景文字的背景信息更为复杂。很多文字可能会受到背景的影响，比如被其他的物体遮挡等等。同时，背景中图片的明暗变化等都会影响检测结果。另外，自然场景中的文字形状更加复杂，很多文字形状的检测对比一般的通用物体检测存在更多的样式，并且在自然场景中很多文字的形状都是不规则的，文本之间变化的差距较大。在文本中还会存在语种属性复杂这一问题，一张图片中的文字可能会包括中文、英文以及数字等一系列的语种文字，在处理这些信息时就会变得较为困难，也会更难提取文本中的信息。因此，对自然场景中的文字进行有效的检测同样是研究人员的工作重点和挑战。为了解决这些问题，本文提出了一种可以检测任意形状文本的方法，以PSENet为基础，通过对其网络进行重新搭建，引入现阶段提高性能的模块，在标准数据集上得到更好的检测效果。

1 相关工作

近年来，深度学习技术不断发展，在文字检测领域的运用也越来越多。自然场景中的文字通常存在着很大的差异，比如在图片中可能会存在文字的大小、字体以及文字颜色的差异。很多街边的店面招牌、交通指示招牌以及食品的包装袋上我们都可以看到这种类型的文字。这类图像中的文字比传统电子文档中的文字更为复杂，运用传统的文字检测方法进行检测准确率就比较低。目前由于深度学习技术的大量运用，很多学者就把眼光放在了对场景文本图像的检测识别上面。目前主要有两种基于神经网络的文本检测方法，一种是基于候选框的文本检测方法，另一种是把基于分割的文本检测方法。

在基于候选框的文本检测思路上，2015年提出的一种目标检测框架Faster R-CNN，在很多个数据集上的检测结果都比较好，不仅准确率高检测速度也较快。利用Faster R-CNN进行目标检测一般需要两步，首先需要用RPN网络提取物体的候选框，之后再对这些提取的候选框进行类别的预测以及位置回归。在Faster R-CNN的基础上，Tian等提出了CTPN，这一算法主要是将要检测的文本转换成一系列的小尺度的文本框进行检测，在文中提出了Siderefinement这一概念，主要用于提高文本框检测的精度。这种方法虽然提升了文本检测的精度但在水平文本的识别上的检测效果并不是很好。沿用RPN的思想，Ma等提出了RRPN，主要解决了识别自然场景文本中文字的多方向问题，通过在锚点上增加很多不同方向的包围框来提高文本检测的精度。Shi等提出了SegLink算法，这种算法不仅从CTPN的角度运用了对小尺度的选框进行检测的方法，并且增加了对不同角度的文本进行检测的方法，改进了CTPN方法的不足。主要是对文本行检测局部片段，之后将这些片段进行连接达到最终的目的。Liao等提出了TextBoxes算法，该算法针对场景文本的特性，设定了适应性的锚点框，提出了text-box层，采用长条形的卷积核，避免了引入非文本噪声，提出了端到端的训练框架，并通过增加识别来提高文本行检测的效果。TextBoxes++在TextBoxes的基础上进行了改进，将TextBoxes中水平排列的文本检测器扩展为能够检测任意文本方向的文本检测器。

在基于分割的文本检测思路上，现阶段主要是通过像素级别的语义分割来实现文本检测，利用FCN对图像中的文本和非文本进行分类，从而得到相应的文字掩膜。Long等首次将文本像素分类预测用于场景文字检测的任务当中，该方法通过FCN预测得到图像中文本的掩膜，之后利用MSER检测提取文本区域的字符。Deng等提出的PixelLink则是没有使用边框回归的思想，而是直接使用实例分割得到文本行区域，之后找到对应的外接文本框。基于这样的信息，可以有效组合属于同一文本的像素点。Wang等在SOLO（Segmenting Objects by Locations）一文中提出了一种“实例类别”的概念，通过不同实例所处的位置来对像素点实现多分类的任务，从而将文本检测从基于回归的方式转换为基于分类的方式，使实现过程更简单有效。EAST方法主要是通过FCN输出像素级别的检测结果，之后利用NMS算法分类获得文本区域。Wang等提出了通过实例分割来实现文本检测的全新算法—PSENet（progressive scale expansion network），这种方法的主要特点是提出了渐进式尺度扩展，通过该方法解决文本行中相邻文字的分离问题。同时也实现了能够检测不同方向的文本行的目的。通过使用特征金字塔网络以及残差网络来提取图片中的文本信息，大大地提高了检测效果。

2 PSENet介绍

目前最先进的算法大多要求矩形框来定义具有任意形状的文本，对于不规则文本的检测就存在很多的缺陷。为此现在大多数使用实例分割方法进行检测，但是这一方法同样存在着一个难点。理论上这种方法是可以检测很多的不规则文本的，但是却不易分离邻近的文本，PSENet的核心思想是文本区域的渐进式尺度扩展，本质也是通过实例分割获得检测到的文本，该算法不仅可以检测不同角度的文本，同时能够实现相邻文本的分离。具体来说，PSENet的主干网络是表达能力更强的ResNet网络，对于任意一张输入的图片I，通过FPN网络提取特征之后得到如图1所示的四个Feature Map（;;;)，然后通过函数合并，得到。的公式如下：

通过，该网络会将需要检测的文本分成不同的分割区域，并记作1…，通过设置不同尺度的核来对相应的文本区域进行处理。从最小的内核开始进行扩展，逐步扩展到和原来文本实例的大小相同。通过基于分割的方法进行像素级别的分类来定位文本实例，从而检测任意方向的文本，达到有效的文本检测效果。网络的整体框架如图1所示。

图1 PSENet整体框架

3 基于PSENet网络的模型搭建

3.1 Res Net

ResNet（residual network），即残差网络，是实现特征提取的主干网络，主要是为了解决当进行梯度反向传播时，网络层数不断上升后所产生的梯度爆炸或消失的问题。在网络结构中引入了跃层连接，使得输入信息直接传输到输出，从而实现恒等映射，在一定程度上保护了信息的完整性且提高了网络的性能。网络结构如图2所示，该网路可扩展性较强，可在增加准确率的同时基本不改变或降低模型的复杂度。

图2 残差网络

3.2 FPN

FPN（feature pyramid networks for object detection），即特征金字塔网络，我们一般进行训练时大多数是用同一尺度的图片进行训练，为了能够适应更多尺度的图片，Lin等提出了FPN网络，通过提取多尺度的特征进行融合进而提高目标检测的精度，特别是在检测小物体上，大幅度提高了小物体检测的性能。

FPN网络主要由三部分组成：

（1）自底向上。相对于神经网络中的前向传播过程。

（2）自上而下。是一个上采样的过程，使用上采样得到具有更高分辨率的特征图。

（3）横向连接。将自底向上生成的feature map和上采样的结果进行特征融合，通过引入FPN网络，增强图片信息的表达能力。该网络的基本架构如图3所示。

图3 特征金字塔网络

3.3 PSENet

PSENet（progressive scale expansion network），即渐进尺度扩张算法，是一种能够很好地检测自然场景中的任意形状文本的文本检测器。对于图像中的每个文本实例而言，都会生成多个相对应的预测区域，记作1…。这些区域也可称之为“核”，其与原文本区域具有一定的拟合性。在相对位置上也是相同的，不同的一点主要是每个核对应的文本实例的比例不同。其流程如图4所示。主要思想是利用BFS（广度优先算法）逐渐扩展kernel的尺度，首先是在1上，即从最小的文字分割特征图得到已经分开的文本中心区域，然后利用2中的像素和1中的像素进行融合，以此达到扩张1的目的，但会发生一个像素属于多个文本区域的情况。如图4中的灰色区域，采用的区分方法是“先到先得”。同理，用3来扩展上一步得到的结果，得到最终的检测结果。

图4 渐进式尺度扩展算法

3.4 Res Ne Xt

为了能够更加精确地提取特征，本文运用了ResNeXt网络，通常我们想要增加模型的精度一般都是通过加深网络的方式，但是这就会增加计算量及其复杂性。本文使用ResNeXt作为主干网络来进行特征提取，是因为它在提高准确率的同时基本不改变或增加模型的复杂度。它引入了新的用于构建CNN网络的blocks模块，通过对相同的卷积层进行平行堆叠而形成，并提出了一种新的计算模块复杂度的度量“cardinality”，指的是一个block中所具有的相同分支的数目。如图5所示，该网络中的cardinality=32。

图5 ResNeXt网络

4 实验与分析

本项目的实验环境配置如表1所示。

表1 实验环境配置

本项目使用的是基于MMOCR的文本检测识别框架，在该框架上进行模型搭建，使用的数据集是公开数据集ICDAR2015，通过对原始的PSENet模型进行改进，并基于ICDAR2015对模型进行了训练以及测试，最后通过三个评价指标：准确率Precision、召回率Recall以及综合评价指标H-mean对模型的性能进行评估，从表2中可以看出，改进后的模型对文本的检测效果得到明显提升。