APP下载

基于极坐标变换的脱机手写藏文字符特征提取方法

2018-04-18朱利娟云中华边巴旺堆

计算机应用与软件 2018年3期
关键词:二值极坐标藏文

朱利娟 云中华 边巴旺堆*

1(西藏大学藏文信息技术研究中心 西藏 拉萨 850012) 2(西藏大学工学院 西藏 拉萨 850012) 3(西藏大学信息技术国家级实验教学示范中心 西藏 拉萨 850012)

0 引 言

文字识别技术[1](Optical Character Recognition),是模式识别、图像处理及统计理论等多学科融合的一个重要应用领域。利用一定的光电设备将在某介质上的各种文字字符转化成图像,并利用计算机进行高速、自动地辨识[2]。OCR可分为印刷体和手写体文字识别技术两类。近年来越来越多的学者开始关注藏文文字识别技术领域,使藏文信息技术不断提升和发展[3-4]。

文字识别过程可分为三个阶段如图 1 所示。第一阶段待识别手写文字图像的采集阶段即图像输入;第二阶段输入的文字图像进行预处理和特征提取;第三阶段藏文字符的分类识别以及识别后的处理过程[5-7]。

图1 藏文字符识别系统的结构框图

由图1可知藏文字符特征提取常用算法包括基于图像投影法、方向线素法、分矩形法等[8-10]。其方向线素法特征提取中特征向量的维数过多、存储空间大、运算速度慢,图像投影法区分相似字能力较差。由图2知藏文字形结构复杂、相似字的比例高等,将给藏文文字识别带来了很大的困难,而藏文文字识别方法的核心和关键技术是藏文字符的特征提取。

图2 藏字结构图

为了使得藏文字符特征向量维数少、存储空间小、运算速度快及区分相似字能力高,结合Rittavee等[11]提出的自适应极坐标变换的算法,提出了一种基于极坐标变换的脱机手写藏文字符特征提取法。该算法首先将藏文字符图像进行预处理后得到大小、位置统一的二值图像,并计算二值图像的极点位置,其次求出f(x,y)=1的所有点对应的极坐标(ρ,θ)。然后对所有点的极坐标进行投影变换,将变换之后得到的向量作为该脱机手写藏文字符的特征向量,即可实现脱机手写藏文字符的识别。结果表明该算法计算简单并有效提升了藏文字符识别效果。

1 藏文字符的预处理

文字图像获取过程中,由于纸张质量不同、印刷或书写质量不同及设备性能的优劣使得图像存在较大噪声、对比度不够等缺点,使模式识别的效果较低。故需要进行预处理消除图像中无关的信息、最大限度地将干扰信息降到最低、恢复真实信息、简化数据信息,从而提高特征提取、分类识别的可靠性。藏文字图像预处理包括二值化、倾斜校正、行、列切分、平滑、去除噪声、归一化和抽取轮廓等[12]。本文中预处理有二值化、行、列切分、归一化和平滑。二值化可得到0、1的二值点阵图像,行列切分可找出单个字符的上下左右边界,归一化可得到大小、位置统一的字符,平滑可减少图像的噪声。

1.1 二值化

藏文字符图像的二值化是将扫描字符的256灰度图转变成灰度值只有0、1的过程。其中二值化算法中的关键是求得一个最佳的阈值。

(1)

(2)

(3)

则有组内方差:

(4)

组间方差:

(5)

1.2 归一化

大小归一化需对不同大小的字符进行变换,使之尺寸大小统一,本文先确定输入藏文字符的外接边框,再将字符的外边框按比例线性放大或缩小成48×24点阵。位置归一化是把整个字符点阵图像移到规定的位置上,文中采用基于质心位置归一化,先计算字符的质心(Gi,Gj),然后把质心移到指定的位置上。式(6)为计算字符质心的公式:

(6)

式中:x、y分别表示横坐标和纵坐标方向,f(x,y)=1表示该字符像素点为黑像素点即黑色,反之表示白色。top、bott、R、L分别表示字符图像的上下左右边界。

(a) (b)(c)(d)图3 藏文字符“”预处理过程

2 特征提取

特征提取需要从原始图像数据中提取一系列稳定的、典型的基本元素或相关的数学表达式,这些元素或数学表达式能够精确反映图像的特征。

1) 极坐标系的建立利用极坐标的基本思想本文利用方向和距离表示平面上一点与极点之间的关系。设f(x,y)是样本字符预处理后得到的位置、大小统一的48×24二值点阵图像,规定:

(7)

式中:x、y分别表示坐标横轴和纵轴上的点x=1,2,3,…,48,y=1,2,3,…,24,f(x,y)表示二值点阵图像中某点的坐标(x,y)是否属于目标函数。f(x,y)=1时表明该点在目标函数上,则该字符像素点为黑像素;f(x,y)≠1时该点不在目标函数上,则该字符像素点为背景色。

极坐标系建立时利用式(8)、式(9)先计算极点ο的坐标(x0,y0)。

(8)

(9)

式中:H表示二值图像的高度,W表示二值图像的宽度。

图4 藏文字符“”的极坐标系

2) 极坐标特征提取方法自适应极坐标变换是一种基于图片均匀采样的极坐标变换法[11]。该方法充分利用了字符图像信息,同时由于圆周方向上的采样数随着半径值的增大而增加,使得藏文字符笔画周边信息得到有效的利用。直角坐标系下点(x,y)在极坐标系为(ρ,θ)。ρ为这一点到极点的距离,θ表示从极点到该点引出的射线与极轴的夹角大小。若以x轴的正方向为起点,逆时针遍历直角坐标系下所有f(x,y)=1时的坐标点。若x0,y0表示直角坐标系下的坐标原点,利用直角坐标与极坐标的转换公式:

(10)

(11)

将极坐标下图像记为g(ρ,θ),nr表示沿半径方向的采集数,nθi表示第i个采集点的半径处的圆周方向的采样数,nθmax表示Ri=Rmax处圆周方向的采样数,Ri表示半径向第i个采样点处的半径值,Rp,θp分别表示在距离轴ρ和方向轴θ的投影,其中采样点为f(x,y)=1时的点[13-14]。则有:

(12)

(13)

3 实验结果分析

在Windows 7系统下用C++语言对本算法进行编程实验。极坐标投影的流程图如图5所示。

图5 极坐标变换流程图

实验使用的数据由基字和纵向叠加字符共580个藏文音节字符组成,其中包括基字30、基字+元音120个、上加字+基字33个、上加字+基字+元音132个、基字+下加字24个、基字+下加字+元音96个、特殊下加字+基字15个、特殊下加字+基字+元音60、上加字+基字+下加字14个、上加字+基字+下加字+元音56个。收集30 000个藏文手写字体作为实验数据,其中80%的样本作为训练数据,20%的样本作为测试数据。建立识别字典中580个字符都有一个标准模板相对应。考虑到速度与存储量等因素,用KNN分类器对6 000个测试数据分别进行极坐标变换法特征提取及图像投影法特征提取进行识别性能比较,如表1所示。KNN分类器[15]即k-最近邻分类法是基于类比学习,通过将给定的检验元组与和它相似的训练元组进行比较来学习。其算法关键是求得一个最佳的k值。在实际应用中,KNN分类器中不同的近邻数k影响着藏文字符的识别率。

表1 极坐标变换法和图像投影法的识别性能对比

由表1可看出:(1) 基于图像投影法的特征提取,近邻个数k从1到7时,藏文字符的识别率随着近邻个数的增加而上升;在k=7时识别率最高,达到84.86%。当k从7到9时,藏文字符的识别率总体呈下降趋势。(2) 基于极坐标变换法的特征提取,近邻个数k从1到5时,藏文字符的识别率随着近邻个数的增加而上升;在k=5时识别率最高,达到96.32%。当k从5到9时,藏文字符的识别率总体呈下降趋势。(3) 在k值相同时,基于极坐标投影变换法比基于图像投影法的识别率有很大幅度的提高。(4) 两种特征提取法方法中,识别时间都随k值个数的增加而延长。虽然基于极坐标变换特征提取的方法普遍比基于图形投影特征提取的方法识别时间长,但极坐标变换特征提取的方法识别率在最高时运行时间是42.25 ms,而基于图形投影特征提取的方法识别率在最高时运行时间是43.97 ms。总的来说基于极坐标变换特征提取的方法的运行速度快些。

由图6可知特征空间的维数从10到74时识别率总体呈上升趋势,当特征向量的维数为74时,识别效果达到最大,最大值为96.32%,当特征向量的维数大于74维时,识别率总体呈下降趋势。

图6 不同特征向量维数的识别率

4 结 语

针对脱机手写藏文字符的字形多样性、相似字符比例高等特点,分析了常用的藏文字符识别的方法,结合自适应极坐标变换的思想,提出一种基于极坐标投影变换的藏文字符特征提取的方法,将其有效地运用到藏文字符的识别中。从实验结果可以看出,该方法与以往的图像投影法相比较,不仅能够充分利用字符图像的信息,而且藏文字符的识别率也有明显的提高,对藏文字符的特征提取具有较好的识别效果。

[1] 刘伟. 脱机手写体汉字识别的特征提取研究与实现[D].长沙:湖南大学,2007.

[2] 蔡晓娟. 基于LBP和PCA 的脱机手写藏文字符识别系统[D].西宁:青海师范大学,2016.

[3] Huang H, Da F, Han X, et al. Wavelet transform and gradient direction based feature extraction method for off-line handwritten Tibetan letter recognition[J]. 东南大学学报(英文版), 2014, 30(1):27-31.

[4] Ma L L,Liu H D,Wu J.MRG-OHTC database for on-line handwritten Tibetan characterrecognition[C] // 2011 International Conference on Document Analysis and Recognition (ICDAR). Beijing, China: 2011:207-211.

[5] Lorigo L M, Govidaraju V. Offline Arabic handwriting recognition a survey[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2006,28(5):712.

[6] Vamvakas G,Gatos B,Perantonis S J. Handwritten character recognition through two-stage foreground sub-sampling[J].PatternRecognition,2010,43:2807-2816.

[7] 周纬,陈良育,曾振柄. 基于几何形状分析的藏文字符识别[J]. 计算机工程与应用, 2012, 48(18): 201-205.

[8] 王维兰.藏文基本字符识别算法研究[J].西北民族大学学报(自然科学版),1999,20(3):20-23.

[9] 王维兰,丁小青,陈力,等.印刷体现代藏文识别研究[J].计算机工程,2003,29(3):37-39.

[10] 刘真真,李永忠,沈晔华. 基于分形矩的印刷体藏文特征提取方法[J].江南大学学报(自然科学版),2007,6(6):791-794.

[11] Matungka R, Zheng Y F, Ewing R L. Image registration using adaptive polar transform.[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2009, 18(10):2340-2354.

[12] 高定国,珠杰.藏文信息处理的原理与应用[M].成都:西南交通大学出版社,2014:152-159.

[13] 符艳军,程永梅,潘泉,等.基于自适应极坐标变换的景象匹配算法[J].西北工业大学学报,2011,29(5):702-708.

[14] 高冠东,王晶,刘菲,等.一种基于极坐标变换的点模式匹配算法[J]. 计算机工程与科学,2016,38(2):331-336.

[15] 李卫平,杨杰,王钢.比例逆权重KNN算法及其流处理应用[J].计算机工程与设计,2015,36(12):3355-3358.

猜你喜欢

二值极坐标藏文
敦煌本藏文算书九九表再探
浅谈小学藏文教学的高效化策略
西藏大批珍贵藏文古籍实现“云阅读”
信息技术藏文编码字符集扩充集A
面向网络边缘应用的新一代神经网络
基于二值图像数字水印算法研究
二重积分的极坐标计算法探讨
基于曲率局部二值模式的深度图像手势特征提取
用于纹理特征提取的改进的成对旋转不变共生局部二值模式算法
《极坐标与参数方程》过关测试卷