APP下载

基于全局和局部特征的中文笔迹鉴别方法研究

2013-08-13陈冀川

电视技术 2013年5期
关键词:笔迹特征提取全局

王 岩,于 明,陈冀川,于 洋,阎 刚

(河北工业大学信息工程学院,天津 300401)

作为司法鉴定和身份验证的重要手段,笔迹鉴别获得了广泛的关注。随着计算机的普及和发展,不依靠专家的计算机笔迹鉴别更是作为模式识别领域的一个研究热点。目前,对外文笔迹的鉴别研究已经取得了一定的进展,但是对于中文的笔迹鉴别,由于汉字结构的复杂性和数目繁多,研究起步较晚,所以方法比较单一并且识别率较低。现有的中文笔迹鉴别方法按照特征提取技术的不同分为全局鉴别法和局部鉴别法。

全局鉴别法基于书写人笔迹的走向和形状不同,鉴别不依赖于书写的文本。朱勇等人首次使用Gabor滤波器提取笔迹图像的全局纹理特征[1]。He等人借鉴这种方法进行中文笔迹的特征提取[2]。此后,He等人又采用小波变换对笔迹进行特征提取[3],为了克服小波变换平移变化和缺乏方向选择等问题,又提出基于轮廓波变换的方法[4],但是依然会导致平移变化,对笔迹的鉴别效果并不十分理想。

局部鉴别法基于手写笔迹的局部特征,尤其是特定字符的笔迹特征。刘成林等人用简化Winger进行笔迹鉴别[5],计算量和存储量小,但只是对相同单字进行比较,对于大样本或相同字少的样本鉴别率较低。吴赛等人[6]根据“横”、“竖”、“撇”、“捺”笔画在书写中出现的不同情况来提取起收笔特征,但这种方法只适合于简单汉字的特征提取。

近年的研究表明,全局和局部特征提取都是必要的,全局特征描述的是笔迹的整体风格,局部特征表征笔段的细节变化。Srihari等人[7]通过提取大量的局部和全局特征来确定书写者,融合全局纹理特征和局部特征可以提高鉴别率。受此启发,本文提出一种新笔迹鉴别方法,首先利用改进的Gabor变换提取中文笔迹的全局特征,在此基础上通过聚类把特征集分成两类,分别为有效类和无效类,之后在有效类中提取笔迹的矩特征作为局部特征,局部特征与笔迹鉴定专家对笔迹特征的感知非常接近,最后经欧式距离分类得出较高的鉴别率。

1 笔迹特征的提取

为了得到更有效的笔迹特征,本文把笔迹的全局和局部特征通过串联方式结合到一起。在全局特征提取阶段采用一种改进的Gabor变换,提取的特征经过聚类后,即可以根据笔迹风格的不同把笔迹样本分成两类,这样就可以舍弃类别不同的笔迹样本即无效类,保留相似的样本类,即有效类,大大减少了计算量。接下来,在相似的样本中继续提取笔迹局部细节特征,本文采用矩法进行局部特征提取,最后通过欧式距离进行分类比对,如图1所示。

图1 笔迹鉴别的特征提取

1.1 改进Gabor的全局特征提取

笔迹图像的纹理有很强的频谱特性和方向性,Gabor变换可以同时进行频率和方向选择,是一种常用的笔迹全局特征提取方法。Gabor变换的滤波函数取高斯函数,公式为[8]

Gabor变换的参数选取问题是难点,已有文献证明,由于汉字本身有较强的方向性,主要分布于垂直、水平和对角方向,对于笔迹图像纹理来说只需要通过选取不同的方向和频率即可得到有效的特征。本文以“维”字为例,经预处理后,取4 个频率,对应于 v=0,1,2,3,σ =,滤波选0°,45°,90°和 135°等 4 个方向进行改进 Gabor特征提取,结果如图2所示。

图2 Gabor变换提取汉字的4个方向特征

从0°,90°和135°方向3幅图中可以看出相位的不同并没对结果有很大的影响,基本所提取的特征相同。出现这种问题的原因是,Gabor变换是各向同性的,在各个方向均会得到完全的采样,会丢失很多诸如笔迹图像的直线或边缘等与方向相关的重要特征。

鉴于此,本文采用一种改进的Gabor变换进行特征提取,它是由Geusebroek等提出的一种各向异性高斯滤波法[9],公式为

u-v坐标与x-y坐标的变换关系为

这种方法在不同方向选取不同的高斯尺度,很好地避免了Gabor变换的缺陷,同时它速度快,能在时域直接变换,不用像Gabor那样变换到频域的优点。依然以“维”字为例进行实验,所采用的参数与Gabor变换相同,结果如图3所示。

图3 改进的Gabor变换提取汉字特征

很明显地看出,在同等条件下,本文所采用的改进的Gabor变换对中文笔迹的特征提取效果要远远好于常用的Gabor变换,这样也证明的了前面分析的正确性。

1.2 K-means聚类

聚类把数据分为多个类或者簇,在类内的数据对象有很高的相似性,类间的对象差别很大,鉴于此,考虑到可以把上一步提取的特征集通过聚类分成几类,进行鉴别时,对相似度很差的无效类可以直接舍去,只需要找到其中与待检笔迹最相似的有效聚类,进行进一步的局部特征提取和匹配,这样极大地降低了计算量,最终提高特征提取和分类器的效率。

在聚类现有的若干算法中,K-means算法作为一种代表性的划分方法,有很高的效率和伸缩性,具有简单、快速的有点,因此本文采用K-means进行全局特征聚类。对于大小为N个笔迹文本组成的特征集,其算法流程如下:

1)首先选取任意k个笔迹作为初始类中心;

2)根据每个笔迹与各个类中心的相似度,给它赋予最相似的类;

3)重新计算每个类的中心;

4)重复以上步骤,直到笔迹的重新分配不再变化。

1.3 矩法局部特征提取[10]

上面几步过后,相似的笔迹被分成一类,在接下来的匹配中,只研究与检测样本特征相似的类中笔迹样本的局部特征,即通过提取单个字符进行特征比较。

汉字笔迹的字形、字位倾斜和重心偏向等特征是字符重要的笔迹特征,这些特征能够很好地反映出书写人的书写风格,并且有明确的物理意义。矩法在计算机视觉领域是定量表示这些整体形状特征的重要方法,非常适合对字符进行局部特征提取。在多种矩的形式中,几何矩是应用最广泛的,其中的二、三阶几何矩的值明显对应于笔迹的形状特征,因此选用能表达更复杂形状特征三阶矩进行字符特征提取。

对于一个大小为M×N的笔迹图像,p+q阶几何矩的计算公式为

物体中心表示为X=m10/m00,Y=m01/m00,坐标原点为重心时,中心距表示为

三阶中心矩 U30,U03,U21,U12可按式(5)进行计算。

对三阶中心矩进行变化,提取8个能表征字符形状的归一化特征,分别是长宽比、字位方向、惯性比、伸展度、水平偏度、垂直偏度、水平伸展均衡度和垂直伸展均衡度。

2 实验结果与分析

为了验证所提出算法的有效性,本文采集15人的笔迹,每人10个笔迹样本图片进行测试,纸张选用A4打印纸,以200dpi的精度将每幅图像进行扫描,存储于计算机中作为笔迹样本库,如图4所示。

图4 笔迹样本

在对样本进行特征提取之前,为消除纸张背景、行间距、字间距和标点等因素对鉴别效果的影响,需要先对笔迹图像进行预处理。本文采取文献[8]的预处理方法,先通过RGB法设置一定阈值去除纸张背景以及字间分隔线,二值化后,分别进行水平和垂直方向投影,去除行或字之间的空白间距以及标点。最后将缩放成16×16的单字粘贴成128×128的图像,形成预处理后的笔迹纹理图,如图5所示。

图5 经预处理后的笔迹纹理图

把每人的5份笔迹共75份作为训练样本,另外5份笔迹共75份作为测试样本进行Gabor全局特征提取,考虑到纹理特征的尺度与滤波器频率成反比,大尺度的纹理不能反映笔迹的特点,因而低中心频率的Gabor滤波器在笔迹鉴别中用处不大,因此只对滤波器取4,8,16,32,64这5 个频率,选取0,π/8,π/4,3π/8,π/2,5π/8,3π/4,7π/8这8个相位,总共40个通道,这些通道的均值和方差作为笔迹特征,这样,每个纹理图像就得到80个特征向量。

聚类实验证明,K-means的k值为2时鉴别效果最好,因此通过聚类把样本分为两类,一类为与待检笔迹相似度高的类,称为有效类,另外一类为相似度低的类,称为无效类,另外,K-means算法由于是随机选取聚类中心,聚类结果会受到影响,所以运行100次求其平均。在此,舍弃无效类,只需要对有效类进行局部特征提取,用矩法提取每份样本中字符的特征,构建新的特征集,实验表明,聚类后减少了局部特征提取和分类器的计算量。最后用欧式距离作为分类器对特征值进行度量,在整个过程中,把待检笔迹样本与其他人的样本进行比较,计算二者之间的欧式距离,按照距离从小到大排序,若待检样本与距离最小的书写人属于同一人,则鉴别正确,否则错误(此为首选正确率)。分别与Gabor变换、改进Gabor变换和矩法相比较,在图6中,依次比较了这几种方法的前10选正确率,可以看出,所提出的方法在中文笔迹鉴别性能上明显好于另外几种方法。

图6 不同方法的笔迹识别率比较

3 小结

提出了一种新的中文笔迹鉴别方法。首次提出把笔迹的全局特征和局部特征融合起来,不仅考虑到了笔迹的整体书写风格,还利用了单个字符的局部统计特征,实验证明,在取得较高的识别率的同时也提高了分类器的效率。另外,本方法有一定的鲁棒性,根据不同笔迹的细节特征,适当调整Gabor滤波器的窗口大小,还可以对其他语言的笔迹进行识别。此方法对于大样本的中文笔迹鉴别同样适用。

[1]朱勇,谭铁牛,王蕴红.基于笔迹的身份鉴别[J].自动化学报,2001,27(2):229-234.

[2]HE Z Y,TANG Y Y.Chinese handwriting-based writer identification by texture analysis[C]//Proc.the 3rd International Conference on Machine Learning and Cybernetics.Shanghai:IEEE,2004:3488-3491.

[3]HE Z Y,YOU X,TANG Y Y.A Contourlet-based method for writer identification[C]//Proc.Conf.Systems,Man and Cybernetics.Hawaii,USA:[s.n.],2005:364-368.

[4]HE Z Y,YOU X,TANG Y Y.Writer identification of Chinese handwriting documents using hidden Markov tree[J].Pattern Recognition,2008,41(4):1295-1307.

[5]刘成林,戴汝为,刘迎建.简化的Winger分布及在笔迹鉴别中的应用[J].计算机学报,1997,20(11):1018-1023.

[6]吴赛,刘俊,张宪荣.基于基本笔画起收笔特征的手写汉字的笔迹鉴定[J].上海大学学报,2004,10(3):248-251.

[7]SRIHARI S,CHA S,ARORA H,et al.Individuality of handwriting[J].Journal of Forensic Sciences,2002,47(4):1-17.

[8]刘宏,李锦涛,崔国勤,等.基于SVM和纹理的笔迹鉴别方法[J].计算机辅助设计与图形学学报,2003,15(12):1479-1485.

[9]GEUSEBROEK J M,SMEULDERS A W M,WEIJIE J V D.Fast anisotropic Gauss filtering[J].IEEE Trans.Image Processing,2003,12(8):938-943.

[10]鄢煜尘.基于信息融合的中文笔迹鉴别研究[D].武汉:武汉大学,2009.

猜你喜欢

笔迹特征提取全局
Cahn-Hilliard-Brinkman系统的全局吸引子
量子Navier-Stokes方程弱解的全局存在性
巧克力能否去除桌上的油性笔笔迹
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于Daubechies(dbN)的飞行器音频特征提取
落子山东,意在全局
Bagging RCSP脑电特征提取算法
论书写速度变化笔迹鉴定
笔迹鉴定过程中的心理偏差及其控制
基于MED和循环域解调的多故障特征提取