APP下载

基于MATLAB GUI的少数民族文字手写体采集系统——以满文为例

2014-04-21郑蕊蕊吴宝春

大连民族大学学报 2014年3期
关键词:满文关联度字母

郑蕊蕊,李 敏,吴宝春

(大连民族学院信息与通信工程学院,辽宁大连116605)

研究少数民族文字识别方法是保护和传承少数民族文化遗产的重要技术手段,具有重要的社会价值和历史意义[1-4]。光学字符识别技术(Optical Character Recognition,OCR)必须以大量的字符样本为基础,因此建设少数民族文字数据库是研究少数民族文字识别方法的必要条件。然而,目前能读写少数民族文字的人数量有限,部分少数民族的语言文字甚至已濒临失传,要获得大量的手写体样本比较困难。为了获取大规模的少数民族文字手写样本,设计并开发了一种少数民族文字手写体采集系统。本采集系统能使零基础的用户快速掌握少数民族文字的读写规律,扩展了少数民族文字手写样本的采集范围,很大程度上解决了少数民族文字手写样本匮乏的问题。系统还集成了文字数据库构建中常用的图像预处理算法,实现了数据采集与数据库图片生成的一体化技术,并具备互动式图片对比功能,使少数民族文字手写样本的采集和数据库构建更为方便快捷。

1 少数民族文字模板/语音数据库

目前,中国已正式使用和经国家批准推行的少数民族文字有19种。不同民族文字的拼读方式具有很大差异,应根据具体民族文字的实际情况设计具有针对性的文字模板。考虑到本系统后续的读音数据采集功能的开发,需要建设少数民族语音数据库。现以满文为例,介绍少数民族文字模板的设计方案和音频数据的获取及处理方法。

1.1 满文字母模板数据库

满文是一种音素文字,共有40个字母。满文字母根据在单词中位置的不同,同一个字母有独写体、首写体、中写体和尾写体4种不同写法。在满文字母模板中添加“字符中位置”属性,分别用“独”,“首”,“中”和“尾”加以标识,如图1。

图1 满文字母模板

满文字母的4种写法,加上不规则的元音书写方式,共计128个字母,因此满文字母模板库共包含128个模板图片,如图2。考虑到满文字母书写的规范性,还在模板中添加了“字母笔顺”属性,辅助用户写出规范的满文字母。满文字母有对应的罗马字转写,用来表示字母读音[5-6],为了方便本采集系统后续功能(学习和读音数据采集功能)的扩展,在模板中加入“罗马字转写”属性,以便链接读音数据。如果用户不会满语,但参照模板中的笔顺和实例,经多次练习,即可写出令人满意的满文字母样本。为了方便查找,模板保存时统一采用“罗马字母转写+位置编号”的方式命名。数字0,1,2,3分别对应字母的独写体、首写体、中写体和尾写体4种位置。因此图1的模板命名为“a0.jpg”。

图2 部分满文字母模板库

1.2 满文字母音频数据

音频数据数字化的方法已非常成熟,本文采用由美国Adobe公司开发的Adobe Audition软件提供的专业化音频编辑环境,将满文字母的读音数字化并存为.mp3格式,保存在满文字库中对应的字母库中,统一采用“罗马字母转写.mp3”的方式命名。

2 基于MATLAB GUI的系统软件开发

系统采用MATLAB提供的图形用户界面开发环境(Graphical User Interface Development Environment,GUIDE)设计图形用户界面,少数民族文字手写体采集系统运行情况如图3。界面共分为3大模块,分别是系统菜单、文字展示区和文字识别区。系统菜单包括全部功能菜单、图像预处理菜单和常用工具栏。文字展示区用于显示所调用的少数民族文字模板,文字采集区主要完成书写功能,可采用鼠标,推荐使用数位板做为书写工具以获得更好的效果。

图3 少数民族文字学习与采集系统运行界面

3 少数民族文字手写体采集系统的关键技术

本采集系统为避免用户重复操作,已将常用中值滤波器、灰度化、二值化和归一化等操作集成在图像预处理模块,用户可根据需要选择不同的方法处理样本图片。

3.1 二值化算法的改进

常规文档图像二值化方法很多,但在处理效果、鲁棒性和速度上存在较大差异。童立靖等[7]分析了OTSU算法、迭代法、简单统计法等常用于文本图像二值化的方法的优缺点。Ostu算法是常用的全局阈值法;Kittler算法结合了图像统计信息且处理速度快;迭代法允许用户交互设置参数,且在许多情况下都能取得令人满意的二值化效果。本采集系统根据这些方法的特点,选择采用Ostu算法[8]和迭代法[9]作为通用二值化方法提供给用户,除此之外还提出一种改进的二值化算法。首先将彩色图片灰度化,然后分别采用Ostu算法、Kittler算法和迭代法3种二值化方法得到3种中间结果。

Otsu法的实质是通过迭代法寻找使图像前景和背景两类的类内方差最小的阈值。一幅具有L个灰度级的图像,其中第i个灰度级的像素为Ni个,i=0,1,…,L-1,图像的总像素个数为 N,第 i个灰度级出现的概率为Pi=Ni/N。假设阈值k将图像分为目标像素C0和背景像素C1两类。其中C0的灰度级为0~k-1,C1的灰度级为k~L-1。则图像的总平均灰度级为:μ=,其中 C0类像素所占比例为:ω0类像素所占比例为:1-ω0;C0类像素的平均灰度为:μ0(k)=/)ω0;C1类像素的平均灰度为:μ1(k)=/ω。1则类间方差公式为

令k从0~L-1变换,计算不同k值下的类间方差δ2(k),使得δ2(k)取最大值的k即为所求最优阈值。

Kittler算法[10]是一种基于图像梯度值与图像灰度统计相结合的阈值选取方法,阈值T计算公式为

其中:f(x,y)是图像灰度值,g(x,y)=max{|gx|,|gy|}表示像素点x和y方向上的最大值;gx=f(x-1,y)-f(x+1,y)表示水平方向梯度;gy=f(x,y-1)-f(x,y+1)表示垂直方向梯度。Kittler算法的优点是适合细节丰富的图像且算法速度快。

采用迭代法选取二值化阈值的过程为

step1 选择一个T的初始估计值T0;

step2 用阈值T0分割图像,这样会生成两组像素:G1为所有灰度值大于T0的像素组成,G2由所有灰度值小于T0的像素组成;

step3 分别计算区域G1、G2所有像素的平均灰度值 μ1、μ2;

step4 计算新的阈值:T=1/2(μ1+μ2);

重复step2到step4,直到相邻两次的T值之差小于事先定义的参数Tr。

选择采用迭代法选取阈值时,用户可交互式地给出阈值初始估计值T0和参数Tr,默认情况下T0=1/2(maxf(x,y)+minf(x,y)),Tr=1。

设上述三种二值化方法分别作用的结果为B1(x,y),B2(x,y)和 B3(x,y),最终的二值化结果B(x,y)根据公式

3.2 基于可接受度的灰面积关联度比对方法

在用户学习书写的过程中,若能有评分功能也有利于用户学习。这两项功能的实现,都可以借助基于可接受度的灰面积关联度对比方法来实现。首先手写样本与标准模板要经过归一化和倾斜校正等预处理;然后采用灰面积关联度计算手写样本与标准模板之间的相似程度。

灰关联分析方法[11]的基本思想是根据序列曲线几何形状间的相似程度来判断其联系是否紧密。经过预处理的手写样本与标准模板的投影特征都可以视为曲线。采用灰面积关联度分析曲线,曲线越接近,相应序列之间的关联度就越大;反之就越小,这种特性与书写样本比对相符合。同时,灰关联度分析方法对样本量的多少和样本有无规律性都同样适用,且计算量小。因此本文研究以灰面积关联度分析手写样本与标准模板之间的相似程度。灰面积关联度分析过程如下:

首先将经过预处理的标准模板和手写样本向水平和垂直方向分别投影,得到投影序列;再分别计算水平和垂直方向的灰面积关联度。现以水平方向为例:假设标准模板水平方向投影序列x=(x(1),x(2),…,x(n));手写样本水平方向投影序列y=(y(1),y(2),…,y(n))。将序列 y平移:y'=y(i)-(y(1)-x(1)),其中 i=1,2,…,n,相当于把对比序列平移,曲线作平移不会影响曲线的关联度。计算曲线间面积关联度时,曲线有相交和不相交两种情况,如图4。

图4 灰面积关联度的计算

(1)当曲线不相交时,所围成的区域可以看作一梯形(三角形看作梯形的特例)。面积计算公式为

(2)当曲线相交时,所围成的区域可以看作两个三角形面积的叠加。面积计算公式为

其中,ρ为分辨系数,是一个可调因子,通常取ρ=0.8/Sv。Sv为比较序列y’与参考序列x的曲线面积Si的均值:Sv=Si。

定义可接受度 Acc=(γx+γy)/2,即水平和垂直方向灰面积关联度的平均值,且0≤Acc≤1。

4 结语

本系统针对少数民族文字手写体样本采集和数据库建设问题,设计了具有针对性的图像预处理算法,使采集到的图像可直接生成为满足数据库要求的图像格式,避免了现有技术方案依靠光学设备进行文档数字化的繁琐工作和噪声污染。提出了一种改进的图像二值化算法和基于可接受度的灰面积关联度对比方法。

[1]王华,丁晓青,哈力木拉提.多字体多字号印刷体维吾尔文字符识别[J].清华大学学报:自然科学版,2004,44(7):946-949.

[2]PENG Liangrui,LIU Changsong,DING Xiaoqing.Multi-font printed Mongolian document recognition system[J].International Journal on Document Analysis and Recognition,2010,13(2):93-106.

[3]王华,丁晓青.一种多字体印刷藏文字符识别方法[J],计算机工程,2004,30(13):18-20.

[4]许爽,孙炎辉,丁纪峰,等.基于ARM的少数民族文字手写输入系统设计[J].大连民族学院学报,2012(5):456-459.

[5]季永海.满语教程[M].北京:中央民族大学出版社,2011.

[6]何荣伟.满语365句[M].沈阳:辽宁民族出版社,2009.

[7]童立靖,张艳,舒巍,等.几种文本图像二值化方法的对比分析[J].北方工业大学学报,2011,23(1):25-33.

[8]OTSU,N.A Threshold Selection Method from Gray-Level Histograms.IEEE Transactions on Systems [J].Man and Cybernetics,1979(9):62-66.

[9]杨杰,黄朝兵.数字图像处理及MATLAB实现[M].北京:电子工业出版社,2010.

[10]KITTLER J,ILLINGWORTH J.Minimum error thresholding[J].Pattern Recognit,1986(19):41 – 47.

[11]李建坡,赵继印,郑蕊蕊.基于综合关联度分析的电力变压器故障诊断[J].2008,26(1):62-68.

猜你喜欢

满文关联度字母
缓存:从字母B到字母Z
中国制造业产业关联度分析
中国制造业产业关联度分析
沉香挥发性成分与其抗肿瘤活性的灰色关联度分析
字母派对
满文本《金刚般若波罗密经》翻译方式探析——以《发愿文》、《普回向真言》为例
三田渡汉文满文蒙古文碑文对比研究
清代审理哈密和吐鲁番回人案件的两份满文题本译释
广义区间灰数关联度模型
北京地区满文古籍纵横谈