CTPN在快递单文字检测中的应用研究

2023-09-07李欢欢徐小云王红蕾

科技资讯 2023年15期

李欢欢　徐小云　王红蕾

关键词：文字检测卷积神经网络文本检测网络区域候选网络

中图分类号： TM715 文献标识码： A 文章编号： 1672-3791（2023）15-0058-04

随着物流业的快速发展，各快递点的分拣、配发工作愈加繁重，且不同快递公司快递单设计样式不统一。为提高快递分拣人员的工作效率与快递分配的准确性，提高信息统计效率和信息采集的通用性，需快速检测并识别出各包裹上快递单号的收寄人信息，并做出派件指引。为实现该需求，学术界通常运用光学字符识别（Optical Character Recognition，OCR）技术来进行文字的检测和识别。在OCR 技术运用中，通常先进行文本检测[1-5]，然后在检测的文本区域进行文本识别[6-7]。可见文本检测的准确性与鲁棒性，将直接影响最终文本识别的准确率。

文本检测技术被研究多年[8-10]。ZHANG H 等對自然场景下文本检测方法给出了一个比较全面的综述。以上研究表明：文字检测技术可分为：基于图像特征的传统文本检测技术与基于深度学习的文本检测技术。传统的文本检测技术又可分为基于分类器的文本检测方法与基于连通域的文本检测方法。而基于深度学习的文本检测技术是该领域的研究主流方向之一。此技术运用基于深度神经网络的模型对文本进行检测，不仅对印刷体文本有很好的检测效果，还能对更为复杂背景的文字具有较好的检测效果。LIAO M、SHI B 等人提出了一种端到端的文本检测方法，该方法在模型设计上主要基于SSD 模型并对其进行了优化。TIAN Z等人认为文本和一般物体不同的是文本是由一个字符序列组成的，因而提出了一种将循环神经网络和卷积神经网络相结合的文本检测方法CTPN。循环神经网络用来对单个文本区域的连续性进行检测，而卷积神经网络用语对单个文本区域的检测。

本文运用CTPN 技术来进行物流快递单上的文字检测，实验发现与传统的方法相比，其具有更高的检出率与稳定性，可较好地应用于快递单场景下的文字检测定位。

1 CTPN介绍

文本是一个由没有显著封闭界线的序列组成，它由字符、字母与文本区域等多个部分组合而成，各部分之间无明显区分，文本行中的字符大小不一定相同，且文本中可能不存在一个明确的文本边界。因此，文本检测是一个需要正确检测出文本行或整个文字区域的细粒度检测任务。

本文运用的CTPN 检测算法，是对Faster RCNN 算法的改进，能进行细粒度的文本检测，可准确定位文本位置，同时引入了BLSTM 来获取文字间的序列特征，它可以直接定位卷积层中的文本序列，利用共享计算机制，大大减少了计算量，提高了文本检测的鲁棒性。图1 为CTPN 算法的网络结构。

CTPN 网络模型要求图片首先经过VGG16 网络模型的conv5 层，假设此时图像大小为H×W，CTPN 网络模型的构建步骤如下。

（1）CTPN 网络模型利用VGG16 的前5 层卷积层网络去提取图像特征，获得大小为H?W? C 的conv5 特征图，其中C 为特征图的个数。

（2）对conv5 上获取的特征图，用3 ? 3 的滑动窗口进行密集的滑动，即每个点都结合该点3 ? 3 领域区域特征获取一个长度为3 ? 3 的特征向量，输出C ?H?W的特征图，其中C 是特征图个数。运算过程如图1所示。

（3）将上述得到的C ?H?W特征图进行矩阵形状变换，将输出大小变换为H?W? C。

（4）然后将数据以最大时间长度为W 且Batch 为H的数据流输入到双向LSTM 中，从而学习每一行的序列特征。双向LSTM 的输出特征为H?W? C，再通过矩阵形状变换得到形状C ?H?W的特征数据，其中C是特征图个数；该特征包含了通过CNN 与LSTM 学习得到的空间特征和序列特征。

（5）LSTM 学习后的特征通过512 维的全连接层（FC），特征变为W?H? 10 ? N（对于文字检测区域位置N=4，对于检测区域是否有文字N=2）。FC 层的每个点都配备K（K=10）个锚，锚的宽度为widths = 16，锚的高度为heights =[11162333486897139198283]，如图2 所示。

这样做是为了：①保证在图像x 方向上，锚能掩盖输入图像中的每个点，且彼此互不重叠；②保证在图像y 方向上能检测出不同高度大小的文本目标。

（6）最后FC 层输出的特征图通过RPN（RegionProposal Network）网络后得到输出层信息，从而获得候选文本区域。RPN 如图3 所示。

RPN 网络可分为两个分支：①左分支可用于对锚的位置进行回归，修正锚的中心y 坐标与高度（height）；②右边分支用于对锚进行分类：文本/非文本。

在RPN 得到的一系列候选文本区域后，运用文本线构造算法将候选文本区域连接成一个文本检测框。

输出层输出3 种结果，分别为垂直坐标（verticalcoordinate）合计2K 个、预测文本/非文本的评分（scores）合计2K个、边缘细化（side-refinement）合计1K个。最后运用非极大值抑制（Non-Maximum Suppression，NMS）算法来滤除多余的文本框，从而得到最终输出。

综上所述，测试网络结构与网络参数设置如图4所示。

2 数据准备

2.1 数据采集

此实验使用公开数据集ICDAR 2019Chinese 来进行文字检测模型训练，该数据集合计30 138 张图片。同时收集某物流公司某快递点的快递单号1 000 张，作为验证集，进行文字检测验证，用来验证本文所使用算法的有效性与鲁棒性。

2.2 数据预处理

本实验的模型训练部分，使用darknet 预训练模型对收集的图像数据集进行训练，该模型要求对数据进行一定的预处理：（1）将图片尺寸进行缩放；（2）将ICDAR 2019Chinese 数据集按7∶3 的比例拆分为训练集与测试集两个部分，用于模型训练与测试；（3）按照darknet 所需的格式生成voc.name、voc.data。

3 实验过程

此实验在一台搭配有NVIDIA M10 32 G 显卡、24GB RAM 的计算机上进行，电脑使用Centos 7.3 操作系统。使用darknet 预训练模型加载预训练模型权重darknet53.conv.74，对生成的数据集进行训练，设置迭代次数为5 万次。训练完成后，得到模型训练参数。

4 实验结果

本文使用得到的模型参数，对实际的快递单号进行检测。实验发现，训练得到的模型，对不同的快递单，有较好的文字检测效果，如图5 所示。

5 结语

CTPN 算法在单一或复杂背景中的文字检测效果优良，且检测速度极快。CTPN 算法引入了双向LSTM神经网络来学习文本的序列特征，这有利于提升文本检测效果。但双向LSTM 神经网络在训练时可能引起算法模型的梯度爆炸，故在训练时需小心调整训练参数。由文章中利用CTPN 技术对快递单文字识别效果来看，CTPN 能够满足多种类、多样式、非结构化自然场景中的文字识别。