APP下载

印刷体维文切分算法的改进——基于像素积分投影法和连通域搜索法

2014-04-21李亚男陈兴文

大连民族大学学报 2014年3期
关键词:维文印刷体字符

李亚男,陈兴文,张 丹

(大连民族学院,计算机科学与工程学院,辽宁大连116605)

相对已经达到国际较先进水平的印刷体汉字、英文识别技术,印刷体维文文字识别技术还处于初步阶段[1]。印刷体维文识别技术中,维文的准确切分起着至关重要的作用,好的切分效果可以大大提高最终的识别率。像素积分投影法是目前常用的维文切分方法[2-3],但在进行单词切分时,该方法不能很好的处理单词切分时相邻连体段在水平方向的覆盖情况,在进行字母切分时,该方法存在过切分和漏切分现象。针对上述情况,提出将像素积分投影法与连通域搜索法相结合的方法对维文进行行切分和单词切分,以减少单词的误切分,并对字母切分部分的像素积分投影法进行改进,仅对位于基线上方的部分进行垂直投影,提高了字母切分的正确率。

1 印刷体维文切分流程及算法分析

维吾尔文的构成特点和书写特点都比较特殊,如维吾尔文字母之间前后粘连形成连体段,相邻连体段在水平方向会有覆盖的情况,字形的宽高不统一,词汇中字母之间没有明显的界限等,如图1。使得维文单词切分与字母切分成为维文识别技术中的难点[4-5]。

图1 维文字符

印刷体维文切分过程:首先对维文文本进行行切分,然后对得到的每一行进行单词切分,最后对每个单词进行字母切分。行切分相对简单易行,单词切分和字母切分则有一定的难度。

对印刷体维文切分,目前最常用的切分方法是像素积分投影法,该方法可以很好的对维文文本行进行有效切分。但是像素积分投影法进行单词切分时不能处理相邻连体段在水平方向覆盖的情况,容易出现漏切分的现象,进行字母切分时也存在一定的问题:Amin把列投影值小于平均列投影值的位置作为候选字母连接部分,然后相邻投影峰值的距离以及大小关系去除部分不合理候选切分位置,但是这种方法需要预知字符的宽度;哈力木拉提取两个峰值中间小于平均投影的位置作为字符的切分点,该方法存在过切分或漏切分的情况,并且受到字符附加部分的影响。

2 印刷体维文切分方法设计

2.1 行切分方法实现

对印刷体维文文字图像进行预处理之后得到的是一个整体的二值化图片文档,对文字部分和空白间隙部分进行像素积分投影[3-5],空白间隙部分投影理论值为0(可能有噪声的存在,实际上不一定为0),而文字行的水平积分投影不为0。因此可以逐行扫描每个像素点,求出各行的水平积分投影,将整篇文档的每一行切分开。一幅文本图象定义

式中 i:行数,i=1,2,…,m;j:列数,j=1,2,…,n。

各行水平积分投影公式为

一行文本的范围通过计算图象的水平投影确定。对经过预处理后尚未切分的文本按照从下往上的顺序进行逐行像素搜索[3]:若第i行满足(H(i)>q)∩(H(i+1)>q)∩..∩(H(i+m-1)>q),则将像素行i作为文本行的下界;若第i行满足(H(i)<r)∩(H(i+1)<r)∩…∩(H(i+n-1)<r),则将像素行i作为文本行的上界。参数p、q、m、n、r均为根据预处理去噪效果和实验情况得到的常数,其中 n=3,m=5,r=2,p=2,q=2,此数据作为参考,具体数据需根据实验情况而定。像素积分投影法简单易行,可以很好的对维文文本行进行有效切分。

2.2 单词切分方法实现

像素积分投影法进行单词切分时不能处理相邻连体段在水平方向覆盖的情况,容易出现漏切分的现象。对字符研究发现,字符的根本特性在于其连通性[1,6],尽管维文单词会出现相邻连体段在水平方向覆盖、倾斜、以及变形等情况,如图2。但是每个单词的连通性是不会改变的,因此可采用连通域搜索法来实现单词切分。该方法可以充分利用字符的连通特性,较好地解决相邻连体段在水平方向覆盖的问题,提高维文单词切分的正确率。

图2 水平方向有重叠的单词

利用递归式区域生长算法确定各连通域,找出连通域后,做出各个连通域的外接矩形[1]。由于32个维文字母中有20个字母包含附加笔画,附加笔画部分与字母主体部分上、下不粘连,因此一个维文字母可能包含多个连通域,所以还需要对连通域进行合并,规则为:搜索每个连通域A最近的连通域B,如果B在A的上方或者下方,则视A和B是同一个字母的主体部分和附加部分,否则将B单独看作一个字母。

运用垂直投影法得到的单词切分结果如图3,运用连通域搜索法得到的单词切分结果如图4。当单词上下重叠时(箭头处),垂直投影法并不能将其很好的切分开,而连通域搜索法则可以。

图3 垂直投影法单词切分结果

图4 连通域搜索法单词切分结果

2.3 字母切分方法改进

文献[5]对字母进行切分时,首先对输入的单词进行垂直积分投影,取有空隙的位置进行切分,得到独立的字母和连体段,如图5,然后找到一段投影值为0的连续空白位置(该位置两边的投影值大于0),取其中间位置作为候选切分点,最终实现字母切分。

图5 单词中的连体段

该方法需要预知字符宽度,容易出现漏切和过切的现象,并不普适。因此对这一部分进行改进,算法如下:

(1)对输入的单词进行垂直积分投影,投影后取有空隙的位置进行切分。垂直积分投影公式为

(2)确定基线区域高度及位置。提取文字行中的所有竖直黑像素游程后统计不同长度游程的数目,具有最多数目游程的游程长度就是基线的高度Hb,H是文字行的高度,P是文字行的水平投影结果,E1和E2分别表示基线的上边界和下边界。在文字行无倾斜的情况下,行的基线位置可以根据式(4)得到,即文字行的基线就是高度为Hb,最大水平投影值最大的带状区域。

(3)提取出位于基线上方的维文部分,即提取出位于基线上边界E1与文本行上边界H1之间的字符部分,如图6。对基线上方部分进行垂直投影,找到一段投影值为0的连续空白位置,该位置两边的投影值大于0,取空白位置的中间位置作为候选切分点,如图7。

图6 提取连体段位于基线上方部分

图7 对基线上方部分进行垂直投影

(4)阈值判定法去除误切分。阈值T的定义为[4]:连体段的行高度H与连续空白间隙的宽度W做比的均值取整作为T,当T过大时,所切分的位置就比较高,可能造成误切分,当T过小时,使连体字母不能被切开。阈值T根据实际实验的训练数据得出,本文取T=16进行判定。

采用未改进的投影法字母切分结果如图8,黑色箭头处存在漏切分现象,采用改进后的投影法字母切分结果如图9。对比可见,改进后的方法对去除字母误切分有很好的效果,提高了字母切分的正确率。

图8 未改进的投影法字母切分结果

图9 改进后的投影法字母切分结果

3 系统环境与识别结果

设计的印刷体维文识别系统是在Windows 7平台下,以VC 6.0和Matlab 2012为开发环境。

打开的原始印刷体维文文本图片如图10。

图10 原始印刷体维文文本图片

原始维文文本图片的最终识别结果如图11。由结果可见,采用改进的维文切分方法,可以达到较好的识别效果。

4 结语

讨论了如何对扫描输入的二值化维文文本图象进行行切分、单词切分、字母切分。通过分析研究不同字符切分方法的优缺点,结合维文自身的书写特点与结构特点,提出采用像素积分投影法和连通域搜索法相结合对印刷体维文进行行切分和单词切分,该方法较好的解决了像素积分投影法不能处理相邻连体段在水平方向覆盖的问题。在字母切分部分,改进了文献[5]中字母切分部分的投影法,改进后的方法不需要预知字符宽度,基本不存在漏切分现象,提高了字母切分的正确率。提出的维文切分方法能够较好地应用在印刷体维文识别系统中的切分部分。

图11 最终识别结果

[1]尹芳,王卫兵,陈德运.印刷体英文文档识别系统的设计与实现[J].哈尔滨理工大学学报,2008,13(6):9-12.

[2]万金娥,袁保社,李晓,等.一种改进的印刷体维吾尔文投影切分方法[J].计算机工程,2013,39(4):263-266.

[3]董国君.印刷体俄文文字识别研究[D].乌鲁木齐:新疆大学,2009.

[4]袁保社,吾守尔·斯拉木.一种手写维吾尔文字母识别算法[J].计算机工程,2010,36(2):186-188.

[5]李晓,袁保社,陈卿,等.基于像素积分投影的印刷体维文字母切分方法[J].计算机技术与发展,2012,22(4):41-44.

[6]靳简明,丁晓青,彭良瑞,等.印刷维吾尔文本切割[J].中文信息学报,2005,18(5):76-83.

猜你喜欢

维文印刷体字符
西夏文楷书和草书手写体探微
石维文
浅谈小学英语字母手写体与印刷体的教学
字符代表几
一种USB接口字符液晶控制器设计
图片轻松变身ASCⅡ艺术画
HBM电子称与西门子S7-200系列PLC自由口通讯
互联网上的维语多文转换机制的设计与实现
高考的时候,把字写得像印刷体有用吗
察合台维文文献《伊米德史》研究概况