结合空洞卷积和先验阈值的数显仪表识别*

2023-08-02李晓明

计算机与数字工程 2023年4期

封磊李晓明

（太原科技大学计算机科学与技术学院太原 030024）

1 引言

数字显示仪表在工业生产管理与安全检测中有着不可替代的作用。目前，对于大量存在的数显仪表，主要的监控管理方式还是由人工值守，不仅效率低下，而且错误率较高［1］。随着人工智能在各行各业的普及，智能化，自动化的管理方式逐渐取代了人工管理的方式，工业生产自动化，也是未来发展的必然趋势。针对以上问题，使用基于视觉的方法［2］，对工业生产中的数显仪表完成自动化识别，达到提高效率，提升准确率的目的。具体实现方法为使用高清的摄像头实时拍摄数字仪表的显示区域，根据提取的图像信息，使用图像识别算法完成图像到文本的转化与存储。因此，对于图像转化为文本的识别算法研究至关重要，对工业生产中的数字仪表自动化监测有着重要的作用和意义。

数字仪表识别的基本原理可以归为字符识别［3］，长期以来使用视觉技术对字符识别的研究一般分为三个步骤，分别是预处理，字符分割，字符识别。预处理过程通常包括字符区域定位［4］，字符区域矫正［5～6］，背景去模糊，二值化等操作；字符分割在预处理的基础上，通常使用直方图［7］或者连通域MSER［8］等方法，对后续识别的准确度影响较大；字符识别是文本识别的最重要步骤，常用的方法包括模板匹配法［9］和特征提取［10］加分类器的方法。但是，上述的方法在复杂冗长的预处理过程中，影响准确率的因素大大增加，例如背景复杂，分割不均匀等，都会造成最终的识别结果错误。人工智能的高速发展使得数字仪表识别有了新的解决方案。基于深度学习的字符识别分为字符检测与字符识别两个步骤，省去了复杂的预处理步骤，极大提升了识别的准确率。

基于深度学习的字符检测常分为两部分，即先将文本信息与非文本信息分类，然后通过回归的方法判定边界框的位置和角度，Zhou 等［11］通过回归距离标注数据（ground truth）的上下左右边的距离和角度来确定文本边框范围，Tian等［12］通过回归中心点的偏移和高度的尺度来确定文本边框。但是，回归由于计算的复杂度，在计算效率上低于分类。基于此，Deng 等［13］提出了一种只需要通过分类即可实现文本边界框预测的方法Pixellink。

基于深度学习的字符识别主要依赖于卷积神经网络进行图像中文本信息的特征提取，为了能够获得更高的精度，出现了更多深层次的神经网络。常用的方法有卷积神经网络结合循环神经网络的方法。然而，深度卷积神经网络由于上采样和池化层［14］的设计，存在内部数据丢失，空间层级信息丢失和小物体信息丢失的特性。为了解决这些问题，Yu［15］等提出了空洞卷积（dilated convolution），与正常的卷积不同，空洞卷积引入了超参数“扩张率（dilation rate）”，该参数定义了卷积核处理数据时各值的间距，起到了扩大感受野同时捕获多尺度特征信息的作用。

基于以上分析，为了解决数显仪表自动化读数问题，本文提出了一种结合空洞卷积和先验阈值的数显仪表识别方法。以变电站仪表为例，测试准确率达到99.3%以上。

2 数字仪表识别模型

本文所用方法为使用Pixellink 文本检测方法完成文本信息的粗提取，结合文本信息先验，完成对检测框的微调，对微调后的检测框进行裁剪，最后将裁剪后的字符区域送入字符识别网络，完成对指针仪表的最终识别，完整的流程见图1。

图1 仪表识别整体流程

2.1 字符检测网络

字符位置信息的提取对后续的字符识别有着直接影响，所以，提取到完整准确的文本框对后续的文本识别有着至关重要的作用。因此，本文采用Pixellink 文本检测方法对仪表图像进行字符检测，如图2。该方法首先通过将同一实例中的像素链接在一起进行分割。然后直接从分割结果中提取文本边界框，无需进行位置回归。

2.2 字符识别网络

将深度学习字符识别模型用于样本学习，能够从样本中自主的提取特征，能够适用于多种仪表，而且省去了复杂的流程，可以识别不定长的字符段，具有更好的鲁棒性。

CRNN［16］是字符识别领域前沿的一种深度学习架构，该架构包括三个阶段，即CNN、BLSTM、CTC［17］。首先使用卷积神经网络进行文本字段的特征提取，将提取到的特征图输入循环神经网络，经过softmax 输出后验概率矩阵，最后经过CTC 模块的对齐，输出完整的文本信息，这种方法无需进行字符分割即可完成字符识别。

本文构建的字符识别网络，遵循CRNN 的整体构架，使用在第4，5 残差单元加入空洞卷积的ResNet-50［18］作为特征提取层，构造完成D-ResNet，如图3 所示，结合BLSTM 循环神经网络与CTC 完成仪表字符的最终识别，所提模型如图4所示。

图3 ResNet-50与D-ResNet-50网络结构

图4 字符识别网络结构

由于字符特点，由D-Resnet-50 网络提取特征时，通过改变池化层步长，使得经过特征提取后的输出为H=1的向量。

3 实验分析

本文实验基于Pytorch 深度学习框架完成，数据来源为某变电站数字仪表，计算平台为GTX2080Ti。采集数据时在数字仪表前架设摄像头，将采集到的视频按帧切分为图像，然后进行数据筛选，去除拍摄不完整或图像受损的数据，最后构建的数据集包括5000张数字仪表图像，如图5所示。

图5 数字仪表数据集

在实际数据量偏少时，常常使用迁移学习的方法来缓解，通过使用在大型数据集上的预训练模型迁移到自身的网络模型中。本文使用在ICDAR 2017 RCTW（Reading Chinest Text in the Wild）［19］上训练的预训练模型。该数据集主要是中文，共12263 张图像，其中8034 作为训练集，4229 作为测试集，数据集绝大多数是相机拍的自然场景，一些是屏幕截图；包含了大多数场景，如室外街道、室内场景、手机截图等。

3.1 数字仪表字符检测

数字仪表字符检测加载Pixellink 在ICDAR 2017 RCTW 上预训练的字符检测模型，对所收集的数据集进行训练，训练损失如图6 所示，其中A为加载预训练模型，B为未加载预训练模型，图7展示了仪表文本检测。

图6 文本检测损失图

图7 仪表文本检测结果

由表1 可见，加载预训练模型的Pixellink 在数字仪表数据集上达到了98.6%的准确率，且收敛更快，更有利于后续字符识别。

表1 数字仪表字符检测对比

3.2 数字仪表字符识别

在数字仪表字符检测后，根据字符检测输出的文本框位置，将文本信息切片，作为字符识别网络的输入。在实际构建切片输入时，由于依据字符框角的坐标裁剪，常有字符信息因为裁剪而受损。因此，在实际裁剪时，需要设置先验阈值，在原检测框坐标基础上外扩X 像素点，保证字符裁剪准确完整，本文经过实验验证，设置阈值X=5。图8（a）为未设置阈值，图8（b）为X=5。

图8 设置阈值裁切对比

为了得到更好的训练效果，本文将识别网络输入图片统一缩放为H1=32，W1=（W×32）/H），其中H1=32为缩放后的图片高度，W1为缩放后的图片宽度。

图9 为D-CRNN 与CRNN 准确率对比图，其中A 为D-CRNN，B 为CRNN，从图中可以看出，D-CRNN 在准确率上明显高于CRNN，且准确率较为平稳，波动幅度较小，相较于CRNN更稳定。

图9 准确率对比

3.3 数字仪表识别

将经过预训练的Pixellink 与改进的CRNN 结合，完成数字仪表的自动化识别，实验结果如图10与表2所示。

表2 数字仪表准确率对比

图10 数字仪表识别结果

4 结语

为解决工业生产中数字仪表长期需要人工值守，浪费人力且准确率低等问题，本文基于先验阈值与空洞卷积的思想，针对排版规则的工业数字仪表，提出了一种基于改进CRNN 的工业数字仪表自动化读数方法，实现了对工业数字仪表的准确识别。其中，使用预训练模型的Pixellink 与改进CRNN的整体识别准确率达到了99.3%。下一步研究将在保证准确率的前提下，进一步提升识别速度。