基于神经网络的场景文本识别

2020-10-20张杨

数码设计 2020年7期

张杨

摘要：文本检测作为新时代的产物，对于计算机视觉识别具有良好的应用效果。随着我国计算机领域相关研究工作的不断深入，神经网络的场景文本识别的精度以及质量也在不断提升。场景文本识别能够应用到诸多领域中，并且发挥出重要的作用。基于此，本文主要针对神经网络的场景文本识别展开研究，仅供参考。

关键词：神经网络;场景文本识别;计算机技术

中图分类号：TP391.41文献标识码：A文章编号：1672-9129（2020）07-0135-01

Abstract：Text detection， as a product of the new era， has a good application effect for computer vision recognition. With the deepening of relevant research in the field of computer in China， the accuracy and quality of scene text recognition of neural network are also improving. Scene text recognition can be applied in many fields and plays an important role. Based on this， this paper mainly studies the scene text recognition of neural network for reference only.

Key words：neural network;Scene text recognition;Computer technology

1引言

场景文本检测技术是科技信息迅速发展的产物，场景文本识别具有一定的真实性以及可靠性，特别是近年来随着我国计算机视觉领域的研究不断深入，场景文本识别已经成为计算机领域的一项热门研究课题。文本作为一种符号，也是一种特殊的视觉信息[1]。众所周知，文本不仅仅具备颜色、纹理等特质，与此同时，文本还具备计算机可供识别的基本特征。此外，本文还具有針对性的、目的明确的语义信息。也就是说，文本识别在计算机领域中的应用范围极广。对此，本文主要研究基于神经网络场景文本识别，希望可以为相关研究者带来理论帮助。

2基于卷积神经网络的文本检测算法

2.1 文本检测网络结构。本文中所选择文本检测神经网络结构为卷积神经网络，该网络共有27层神经层。在这其中，前部分的15层继承于原网络结构，但对conv4-3层进行了保留。并且再次接触时，又额外增加了余下的神经层，其中还包括3个池化层。随着卷积层尺寸不断变小，卷积层的范围也在逐渐减小，这样就能够对各个尺度的检测框进行预测和分析。在此过程中，文本框层输出为每个默认框，并且能够对这些边界框的数值进行预测。

2.2 损失函数。文本检测过程中，一般包括两个基本的训练任务。既回归任务以及分类任务两大类[2-3]。其中，回归任务一般针对存在默认值的文本识别工作中，用于预测默认框位置的偏移值。借助回归任务，所得到的文本框检测结果更加真实，更加贴近实际的数值。回归任务所输出的多维向量，能够代表平移缩放后的偏移值。其中，分类任务主要用于对最终默认的文本框属性进行确认。分类任务输出的数值能够表示文本的概率值。因此，最终采取文本检测网络的损失函数能够分别代表位置的回归损失函数、置信度的分类损失函数。通过对损失函数进行分析，而后能够有针对性的展开检测任务，从而实现文本识别的目的。

2.3 非极大值抑制。在处理完检测任务后，为了能够进一步提升文本识别的准确度，还需要借助非极大值抑制对其展开进一步的搜索。非极大值抑制的目的是为了能够有效的消除冗余的检测框。与此同时，借助非极大值抑制，还能够对最佳的检测框进行寻找，实现最佳检测的目的。在非极大值抑制过程中。首先，将检测结果按照置信度得分进行排序。排序的目的是为了确保非极大值抑制的公平性，根据选中概率最大的一层，作为最终的检测结果。而后，再将余下的检测框与所选中的检测框进行对比。通过对比分析其不同点，若IOU大于某一设定的阈值，则能够证明，当前所选中的检测框中的得分最高检测框包含其中。而后，将多余的检测框进行删除，仅对第一个检测框予以保留。在全部删除完成后，从未处理的检测框中继续选择概率最大的检测框。通过进行反复的检测、删除，最终直到全部的检测框都筛选完成，只保留最终的检测框结果。

3基于神经网络的场景文本识别实验

3.1 数据集。为了能够进一步验证基于神经网络的场景文本识别，本文中对此展开了实验。首先，应对实验的数据集进行确认。本文主要以足球场景的文本检测数据集作为实验的数据集。针对某足球场内举办的足球赛场景，对场内进行文本标注。通过对足球场内部的全部信息予以标注，并且分别对所标注的文本属性进行记录，包括文本的信息、坐标、内容等等。为了能够更好的区分文本，本文主要对文本的坐标符号进行色彩分类，生成相应的xml标签文件。在对场内的全部本文进行标注完成后，一共得到2000张图片，共包含45231个文本区域。针对该数据集中的全部样本进行随机选择，最终选定了2500张样本，作为本次实验所用的训练数据，并选定800张样本作为测试数据，作为算法的验证。

3.2 实验细节以及最终结果。在实验过程中，通过对以上的样本进行检测框的选取，网络输入采用400×400 大小的图片，由RGB通道进行输入，将之传送至电脑终端。整个训练的过程主要借助模型中的数据参数，对网络这部分卷积层进行初始化。初始化的目的是为了能够确保最终实验结果不受到其他因素的影响，从而保证最终的实验结果真实可靠。对其采用随机梯度下降法的方式进行训练。为了更加直观的看到效果，选择借助网络对其进行优化学习。学习率初始化设置为0.001，动量参数为0.8。针对学习率的更新，主要采取衰减法进行实现。整个实验过程全部在Windows系统内完成。编程实验主要借助Python软件进行。通过对实验的指标进行分类，并且对其采取回归分析的方式，分别对数字文本和字母文本的召回率进行评估。最终的文本检测内容与训练的数据并不重复。通过展开此次实验能够看出，基于神经网络的场景文本识别具有良好的应用效果，不仅能够对足球赛事等文体活动进行识别分析，还能够用于一些监控、安检领域中，都能够发挥良好的效果，具有一定的推广意义。

4结论

综上所述，为了能够进一步验证场景文本识别的应用效果，本文主要借助卷积神经网络，对某足球赛事的场景进行了文本识别检测。借助网络技术，能够对足球场内部的文本进行全部的检测以及标号。通过采取回归分析，能够对最终筛选得到的文本检测框进行筛选，通过制作赛事场景的数据集，能够更好的对其进行实验和测试。研究证明，基于神经网络的场景文本识别应用范围极广，具有良好的推广价值。

参考文献：

[1]王光军. 基于神经网络的自然场景中的字符识别算法的研究与实现[D].电子科技大学，2020.

[2]李颖. 基于BERT-DPCNN的垃圾弹幕识别改进及应用[D].上海师范大学，2020.

[3]陈泽瀛.一种基于自适应非极大值抑制的文本检测算法[J].数字技术与应用，2020，38（03）：117-120.