基于LABVIEW图像识别技术在文字识别领域的研究

2020-12-08高新怡张坤坤杨静怡陈冠宇蔡华蕊

科学导报·学术 2020年89期

高新怡张坤坤杨静怡陈冠宇蔡华蕊

【摘要】文章主要研究了外界获取的文字图像整个处理过程所使用到的方法和算法，并对完成文字识别操作的各种方法进行了比较。通过双三次插值法完成图像的采集、平均值二值化完成图像的预处理、卷积神经网络和递归神经网络处理并识别文字。并且阐述了各个环节用LABVIEW实现步骤。图像识别是几年来的一个热门技术，对于试听能力下降的老人，如果能利用这类技术极好的便利生活，即实现了高科技助老。

【关鍵词】LABVIEW;图像采集;文字识别;神经网络

1 图像获取

1.1图像采集

图像采集是指通过摄像头将光学信号转化为电信号，传送至图像采集卡进行数字化，形成可使计算机识别、处理的数字图像数据，将其保存下来的过程。通常情况，图像的采样有3种方法：最邻近插值法、双线性插值法、双三次插值法。

采集后的图像有两个衡量指标：灰度等级以及采集分辨率。对衡量指标的优化，称为对图像的预处理。

1.2图像预处理

1.2.1 二值化

图像二值化是指将采集到的灰度图像的灰度值置为0或者255，使整个图像呈现为黑白图像，这样有利于简化图像，在对图像做进一步处理时，图像的集合性质仅与0像素值或255像素值的点的有关，不会涉及到像素的多级值，使得数据的处理更加简单、压缩量更小。

简单方法是指在对彩色图像灰度化以后，扫描图像的每一个像素值，小于127的像素值设为0（黑色），大于或者等于127的像素值设为255（白色）。该方法的优点在于处理量小、反应速度快，缺点在于阈值127的选择没有依据，仅为像素值0-255的中值，没有考虑到像素值的分布情况，处理后图像的效果欠佳。

平均值二值化方法是指先计算出像素点的平均值K，再对灰度化后的图像的每一个像素点进行扫描，小于或者等于K像素值的像素点设为0（黑色），大于K像素值的像素点设为255（白色）。该方法相比于简单方法，在阈值选取上更加的有逻辑，选择像素值的平均值。但仍然可能导致部分对象像素或者背景像素丢失，导致二值化后的结果不能反映源图像的真实信息。

直方图方法该方法的阈值选择为寻找两个最高的峰值，阈值取值在两个峰之间的峰谷最低处。该方法的精准度更高，结果更为人们所接受。

1.2.2 反色

反色是指将得到的彩色图像的R、G、B值取反，这里所涉及的反转操作即为用255减去原来图像的R、G、B值得到新图的R、G、B值。对图片反色处理后可以增加图像的对比度，凸显出图片的一些细节信息。

1.3滤波处理

均值滤波通俗来说，是一种“低通滤波器”，去除高频信号，即消除尖锐噪声，使图像平滑，但无法去除椒盐噪声。

中值滤波是取某个像素点的周围像素点的中值作为该点的像素值，相比于均值滤波，可以较好的去除椒盐噪声。

最大值/最小值滤波是取某像素点的周围像素点的最大值/最小值作为该点的像素值，此方法能够很好的处理椒盐噪声。

高斯滤波取某像素点与周围像素点的距离作为权重卷积计算中心位置的像素。高斯滤波是一种低通滤波，对图像的“平滑化”效果显著。

1.4 用LABVIEW预处理信号

LABVIEW 中的运动视觉模块具有相对完整的图像处理功能，调用其中的IMAQ USB函数可自动识别USB摄像头并读取数据，图像采集完成之后，调用IMAQ Extract进行光标设置所需查找的像素。待找到最合适的像素值之后，程序中先运行一个条件结构，其次运行一个顺序结构，再设置其image控件，调整palette参数可实现对所获图像的二值化，再调用matlab中的白化函数，完成对所获图像的白化处理。

2 图像识别

2.1 算法选取

2.1.1 最佳统计分类器

最佳统计分类器算法通过模式分类器计算出模式相对于类的平均损失，再通过贝叶斯分类器将平均损失降至最低。在此，标准字库中的每个字符对应于算法中的一个类，每个文字图像对应于算法中的一个模式。此算法的运算量相对较小，但结果不够精确。

2.1.2 串匹配

串匹配算法是将获取的文字图像的边缘信息编码成串，且与标准字库文字边缘信息进行比对，计算出其与标准字库文字边缘信息的匹配度。此算法在精确的接近于无限大时，可将所获文字与标准字库精准匹配。但该算法的匹配是逐个字符进行匹配的，计算量大，相应速度较慢。

2.1.3 神经网络

神经网络是将图片文字作为输入，标准字库文字作为输出，利用反向传播算法、梯度下降法对网络各参量进行优化，使得误差函数最小。神经网络可通过卷积神经网络算法，对输入进行强制稀疏化，减小计算量，准确度提高。

相比三种算法，神经网络的计算量小，准确度更高。

2.2 神经网络

2.2.1 卷积神经网络

卷积神经网络由输入层、卷积层、池化层、全连接层以及输出层组成。输入层可对图像进行前文所提到的预处理操作。卷积层通过一个用户自定义的核与图像的特征描述矩阵作遍历完某个方向的卷积运算，将所得到的局部信息存储到一个新的矩阵中，其中通过不同的核得到的特征矩阵可进行信息共享[1].设第层卷积层的输入具有个通道，且该层具有个核表示激活函数，该层的结果可表示如下：

池化层的作用是对卷积层所提取到的特征进行降维，使激活值的变换更加陡峭以实现更好的学习。在通过卷积层得到的矩阵中选择的窗口以的步幅滑动，并选择每个窗口中的最大值记录到一个新的矩阵中，该最大池化值对应于核所需求的最佳匹配模板。

最后通过全连接层作用，与传统MLNN网络类似，对所提取整理得到的信息特征进行非线性组合，在输出层得到对图片中文字识别的结果。

整个网络的训练将文字图片作为输入，其对应于文字库的标准输出作为标签，采用反向传播算法进行各层中参数的计算。其中全连接层的BP计算与传统前馈神经网络相同，卷积层采用与前馈传播类似的交叉相关方法进行计算，池化层则在将训练中的误差极大值分配到合适的位置，而在反向传播中不会进行参数的更新。利用传统的SGD方法将各误差函数的最小化，可得到各层中参数的最优值。

2.2.2 递归神经网络

为增强神经网络所处理结果的可读性，此处增加一个RNN网络进行自然语言的进一步处理。RNN反向传播算法[4]和常规神经网络类似，通过梯度下降法基于时间进行反向传播，得到合适的模型参数。

2.3 基于LABVIEW的神经网络实现

神经网络在LABVIEW中是通过反馈的形式实现的，利用移位寄存器将前一次循环的输出传递给下一个循环的输入。在使用的先进控制算法中，内模控制在系统的控制领域具有极强的优越性。

3 结论

本文介绍了基于图像识别技术完成文字识别的方法，阐述了所获取的文字图像的预处理方法，介绍了用于图像文字识别过程中所涉及到的算法。其中插值能增强图像的某些特征来对所获图像进行预处理，滤波去除不必要的噪声，训练好的神经网络可对处理好的图像进行贴标签或分类。

目前，文字识别到技术已经相对成熟，各种图像计算的科学算法如滤波、白化、卷积神经网络等已被不仅限于图像识别的各领域广泛应用，而滤波可用于各种图片的平滑处理，插值能增强各种信号，使信号的特征更清晰，这些算法在识别领域中可达到较好的效果。

参考文献：

[1]熊秀，石秀华，许晖，杜向党.用LABVIEW实现神经网络控制.1000-8829.2005.

[2]张乃尧，阎平凡.神经网络与模糊控制[M].北京：清华大学出版社，1998.

天津市大学生创新创业训练计划项目202110069073