APP下载

基于数字图像处理的文本型数字图像OCR识别准确度提高策略研究

2017-10-13◆郭

网络安全技术与应用 2017年6期
关键词:数字图像字符准确度

◆郭 军



基于数字图像处理的文本型数字图像OCR识别准确度提高策略研究

◆郭 军

(铁道警察学院图书馆 河南 450000)

本文在介绍信息资源数字化OCR识别工作流程的基础上,围绕数字图像编辑软件选用和数字图像预处理两个方面,对数字图像处理阶段影响文本型数字图像OCR识别准确度的一系列因素展开分析,进而提出了针对性的OCR识别准确度提高策略。

OCR识别准确度;文本型数字图像;提高策略

0 引言

OCR(Optical Character Recognition,光学字符识别)这一概念最早于1929年由德国科学家Tausheck提出[1]。自20世纪90年代以来,以“美国记忆”(AMERICAN MEMORY)为代表的图书馆领域信息资源数字化项目的广泛实施,为OCR识别技术提供了广阔的应用与发展平台。从工作流程上分析,OCR识别技术在信息资源数字化工作中的应用,可划分为原始文献获取、数字图像生成、数字图像处理、字符特征匹配、人工处理和结果输出等6个阶段,如下图1所示。信息资源数字化OCR识别流程的6个阶段中,涉及一系列OCR识别准确度的影响因素,本文就其中数字图像处理阶段OCR识别准确度的影响因素展开分析,并提出相应的提高策略。

图1 信息资源数字化OCR识别工作流程

康奈尔大学图书馆将二维平面介质型文献资料区分为印刷型文本、手稿、半色调型信息资源、连续色调型信息资源和混合型信息资源等5种类型[2]。本文主要针对其中的印刷型文本(文本型数字图像)OCR识别准确度展开探讨。

1 数字图像处理阶段OCR识别准确度影响因素

信息资源数字化过程中,数字图像处理阶段主要负责完成强化数字图像中的字符特征信息。图像增强处理工作的直接目的是为了提高图像的解译力,把图像中我们感兴趣的特征强调出来,同时抑制不感兴趣的特征[3]。数字图像处理阶段OCR识别准确度的影响因素,主要体现在以下两个方面:

1.1选择何种类型的数字图像编辑软件

在数字图像处理阶段,图像编辑软件一般分为数字扫描仪附带和专业商业软件两种类型,其各自的优势与劣势主要体现在购置成本和图像编辑功能两方面的博弈上,具体如下表1所示:

表1 图像编辑软件优劣势

1.2数字图像增强处理操作

数字图像增强处理操作的目的在于强化、突出对OCR识别有用的图像内容,同时弱化、抑制无益于OCR识别的部分。数字图像增强处理操作主要包括几何位置调整、噪声抑制、二值化和锐化等四个方面。

(1)几何位置调整

OCR软件对文本型数字图像的识别,其过程是首先基于数字图像的已有版面识别出其中的文字行,然后从文字行中正确分离并识别单个文字,最后再正确地连接文字行[4]。但在信息资源数字化过程中,经常出现原始印刷文献排版欠佳或印刷质量不过关等问题,由这些原始印刷文献生成的数字图像势必会影响OCR软件的精确识别。另外,在对数字图像进行数字扫描操作过程中,因操作失误或机器误差也会影响数字图像中的字符在水平或垂直方向上的排列。

(2)噪声控制

图像噪声可以理解为妨碍人的视觉感知,或妨碍系统传感器对所接收图像源信息进行理解或分析的各种因素,也可以理解成真实信号与理想信号之间存在的偏差[5]。

噪声普遍存在于数字图像中,噪声是最常见同时也是最主要的OCR识别准确度影响因素。抑制噪声的过程称为“滤波”,数字图像“滤波”效果的优略取决于对噪声类型的分析和“滤波”方法的选择。

(3)二值化

数字图像的二值化处理,是指将数字图像中各像素点的灰度级数按照一定的标准处理为或黑色或白色。OCR识别过程中,文本型数字图像经二值化处理后能够强化凸显其中的字符特征信息,以支持OCR软件辨识。数字图像二值化处理的效果取决于二值化阈值的确定,数字图像中各不同灰度级数部分均根据与该阈值比对的结果转化为黑或者白。

(4)锐化

数字图像的锐化处理,是指同时增强突出图像中的模糊细节部分和各字符的轮廓及边界部分。OCR软件对数字图像的识别,是依据图像中各字符图案的边界特征而展开,锐化处理的效果直接影响着后续的OCR识别准确度。

2 数字图像处理阶段OCR识别准确度提高策略

2.1选用专业公司开发的正版编辑软件

为提高OCR识别准确度进而确保信息资源数字化产品质量,支付一定的数字图像处理软件购置费用是十分必要的。在条件允许的情况下应选用Photoshop、CorelDRAW、illustrator等正版商业数字图像处理软件。在遴选数字图像编辑软件的过程中,应注重从如下6个方面对其性能进行测定和评价。

(1)易操作性。数字图像编辑软件的易操作性主要体现在操作界面的友好性上,操作菜单及栏目设置应简洁明了,紧密结合用户使用习惯,尽量减轻用户在操作使用过程中的智力负担和视力负担。

(2)文件格式兼容性。数字图像编辑软件,应能够支持识别常用文件格式的数字图像,同时还应能够支持输出常用文件格式的文本文件。

(3)批量处理功能。信息资源数字化工作中,OCR识别的对象不是单个文件,而是大量多种类型的文件。数字图像编辑软件,应能够具备对批量文件的编辑处理功能。

(4)图像修正和优化功能。文本型数字图像OCR识别过程中,数字图像的修正操作主要有调整图像尺寸、剪切图像大小、旋转图像空间位置等;数字图像的优化操作主要有调整图像亮度(包括自动调整和手动调整)、调整图像对比度(包括自动调整和手动调整)、特效滤镜、色彩平衡、调整图像曝光度等。

(5)多种窗口功能。数字图像处理过程中,需要多个窗口同时呈现等窗口处理功能。

(6)多种视图功能。数字图像处理过程中,不同类型、不同形式的数字图像需要多种视图功能以供选择或组合。

2.2注重数字图像增强处理的过程控制

2.2.1自动和人工相结合,合理调整几何位置

OCR识别过程中,平移和旋转是两种最主要的数字图像几何位置调整操作。一般情况下,数字图像编辑处理软件和OCR识别软件均具备对数字图像进行预处理操作的功能,自动调整、人工调整、自动调整和人工调整相结合是最常见的三种数字图像预处理方式。

实际操作过程中,如果仅依靠数字图像编辑软件的自动调整功能,因软件所采用的算法对不同数字图像的适应能力不同,常导致部分数字图像的几何位置调整效果欠佳;如果仅依靠人工调整,大批量的数字图像预处理又会耗费大量的时间。鉴于此,笔者认为,数字图像的几何位置调整过程中,在进行人工调整之前,应首先借助数字图像编辑处理软件自动调整功能。

2.2.2根据噪声类型,选用针对有效的滤波方法

噪声分布整体上呈现出一定的规律性,噪声点的位置和噪声点的幅值是区分噪声类型的两个主要属性。噪声点位置分布特征和噪声点幅值变化趋势,是区分噪声类型的两个主要依据。据此,可将数字图像中的噪声划分为椒盐噪声和高斯噪声两种类型。椒盐噪声的典型特征是噪声点的位置分布呈现出随机、不规则趋势,但各噪声点的幅值却基本处于同一区间;高斯噪声的典型特征是噪声点位置分布均匀有规律,但各噪声点的幅值变化整体呈现出杂乱、无规律。为有效抑制数字图像中的噪声,文本型数字图像OCR识别过程中应根据噪声的类型及其具体特点来选择合适的滤波方法。

(1)均值滤波

均值滤波致力于将位于数字图像各区域中心位置处的像素的灰度值,统一赋予该区域中的全部像素。均值滤波方法在具体操作过程中,通过一个大小为m(m为奇数)的正方形滑格遍历整个数字图像,遍历过程中将窗格中心位置处的灰度值统一处理为窗格上所有其余像素灰度值的平均值。从最终滤波效果上来看,均值滤波对高斯噪声的抑制明显优于椒盐噪声。因椒盐噪声各噪声点的位置分布不规则且各噪声点灰度值区间基本一致,均值滤波在对椒盐噪声进行处理时虽能够降低各噪声点的像素灰度值,但同时也增加了各噪声点在数字图像中的相对面积。

(2)中值滤波

中值滤波的基本出发点是,将数字图像中各区域像素值的中间值作为位于该区域中心位置处的像素的灰度值。中值滤波在具体实施过程中,通过一个大小为m(m为奇数)的正方形滑格遍历整个数字图像,遍历过程中将窗格区域各像素的灰度值按照从大到小的顺序排序进而计算出它们的中间值,并把该值确定为位于窗格区域中心位置处的像素的灰度值。

从最终滤波效果上来看,中值滤波方法更适合于抑制数字图像中的椒盐噪声。原因在于高斯噪声各噪声点的像素灰度值整体上均匀分布在数字图像中,进而其灰度值被中值滤波确定为各区域中值的几率较大而无法受到有效抑制。

(3)边界保持类平滑滤波

OCR识别软件对数字图像的辨识,是基于数字图像中不同字符及相同字符的不同部分之间所存在的像素灰度值变化特征。数字图像增强处理过程中,如果对其中字符图案的边界特征造成损坏,势必将会影响OCR软件的识别准确度。无论是均值滤波还是中值滤波,在祛除数字图像噪声的同时都无可避免地消弱了数字图像本身的清晰度,其中各字符的边沿轮廓及细节特征最容易受到影响。鉴于此,在数字图像滤波处理过程中应尽量完整地保留字符图案的边界特征,实际操作中常通过边界保持类平滑滤波。边界保持类平滑滤波主要包括如下三种类型:

第一种:灰度最小方差均值滤波

该方法借助合适大小的滑格遍历整个数字图像,在滑格游动过程中检测每一个小区域内的像素灰度值变化情况。如果在某一小区域内,数字图像的像素灰度值基本位于同一数值区间范围内,表明该区域适合采用均值滤波去噪;如果在某一小区域内,数字图像的像素灰度值波动较大,表明该区域可能存在字符边界,不适合采用均值滤波去噪。

实际操作过程中,主要根据数字图像某小区域全部像素的灰度值方差大小,来判断在该区域内是否存在字符边界。像素灰度值方差越大,表明该区域的像素灰度值处于不同区间的几率越大;像素灰度值方差越小,则表明该区域的像素灰度值处于同一区间的几率越大。

第二种:N近邻平滑(均值、中值)滤波

该方法在处理过程中,在数字图像上待处理像素的相邻区域内,找出N个与其灰度值最接近的像素,然后计算出这N个像素灰度值的均值或中值,并将其赋予待处理像素。

第三种:对称近邻均值滤波

该方法借助(2m+1)×(2m+1)(m为正整数)的滑格遍历整个数字图像,在滑格游动过程中的每个小区域内以待处理像素为中心定位2m(m+1)组对称点,然后分别从每组对称点中选出1个与待处理像素灰度值最接近的像素,进而将2m(m+1)个对称邻近像素灰度值的均值赋予待处理像素。

2.2.3选用合适的阈值方案,合理确定二值化阈值

二值化是文本型数字图像OCR识别之前的常用操作,部分OCR软件甚至只支持对经二值化处理的数字图像进行识别。数字图像二值化处理的关键在于合理确定二值化阈值,实际操作中常用的二值化处理方法主要有以下两种类型。

(1)全局阈值二值化

全局阈值二值化将全部数字图像作为整体,为其设定唯一的像素灰度阈值。数字图像中的各像素,灰度值大于该阈值的被统一处理为白色,灰度值小于该阈值的被统一处理为黑色。全局阈值二值化,适合应用于本身质量较好、图像背景元素单一的数字图像,其最突出的优点是方便省时。

(2)局部阈值二值化

局部阈值二值化,采取化整为零的策略,借助合适大小的滑格遍历整个数字图像,在滑格游动过程根据每一个小区域的像素灰度值来确定各自的二值化阈值。由于为数字图像分区域设定了更加精准的二值化阈值,局部阈值二值化更加适合于对本身质量较差、背景元素比较复杂的数字图像进行二值化处理。局部阈值二值化由于采用了具有针对性的动态阈值确定方法,可以避免因唯一阈值二值化而对图像边界部分的细节信息造成较大损伤[6]。

但是,局部阈值二值化因算法相对复杂,文本型数字图像OCR识别过程中也相对更加耗时。为有效协调二值化处理效果和所耗费时间之间的矛盾,研究人员指出可尝试综合利用多种方法来进行数字图像二值化操作。为此,就需要建立一个尽量齐全的数字图像样本特征数据库,并在实际应用过程中使其得到不断的丰富和完善[7]。

2.2.4适度锐化处理数字图像

在平面二维坐标图上,如果以横坐标标识数字图像各像素点的灰度值,纵坐标标识相应灰度值的像素点在数字图像中出现的次数,则可生成数字图像灰度值的二维曲线图。从像素灰度值的二维曲线图来看,任何数字图像都是由低频信号和高频信号组成的,其中低频部分决定图像各组成部分的反差效果,高频部分则决定图像的细节[8]。数字图像的锐化,实际上是强化突出图像中高频部分的过程。

实际操作中,常规锐化方法均是单纯致力于强化数字图像像素灰度值二维曲线图中的高频部分。但是,各噪声点散布于整个数字图像,其中的高频部分同样有噪声存在。常规锐化方法将无可避免地导致在增强高频部分字符特征信息的同时,图像中的噪声也受到强化。因此,必须对数字图像的锐化策略加以改良,以实现既能增强图像的边界特征又不会因此而增强已有的噪声。笔者认为,可先通过边界检测算法,以像素灰度阈值的形式标识出数字图像中的字符边界特征,进而辨识出哪些区域是真正的字符边界,哪些区域应被确定为噪声,最后保留噪声部分仅对边界部分的像素进行锐化。

在对数字图像锐化处理时必须注意,对于原始数字图像而言锐化是一种不可逆操作。操作过程中,无论选择哪种锐化方法均应把握合适的锐化分寸,避免因过度锐化而对数字图像造成不可修复的损坏。基于此,在对数字图像进行锐化操作之前必须对其进行备份。

[1]Schantz,Herbert F.The History of OCR,Optical Character Recognition[J].Recognition Technologies,1982.

[2]Cornell University Library.Document Types,2017. http://www.library.cornell.edu/preservation/tutorial/conversion/conversion-01.html.

[3]王斐,王杰生,胡德永.三个商用遥感数字图像编辑软件比较[J].遥感技术与应用,1998.

[4](日)谷口庆治编,朱虹等译.数字图像处理——应用篇[M].北京:科学出版社,2002.

[5]朱虹.数字图像处理基础[M].北京:科学出版社,2005.

[6]朱军民,黄磊,刘昌平.图像二值化方法比较[J].第八届全国汉字识别学术会议论文集,2002.

[7]王强,马利庄.图像二值化时图像特征的保留[J].计算机辅助设计与图形学报,2000.

[8]姚海根.数字图像的清晰度增强技术(上)[J].印刷杂志,1998.

猜你喜欢

数字图像字符准确度
数字图像水印技术综述
Phosphatidylinositol-3,4,5-trisphosphate dependent Rac exchange factor 1 is a diagnostic and prognostic biomarker for hepatocellular carcinoma
字符代表几
一种USB接口字符液晶控制器设计
图片轻松变身ASCⅡ艺术画
HBM电子称与西门子S7-200系列PLC自由口通讯
幕墙用挂件安装准确度控制技术
ARGUS-100 艺术品鉴证数字图像比对系统
动态汽车衡准确度等级的现实意义
浅谈数字图像技术在电视节目后期制作中的应用