APP下载

基于Fisher判别苦槠和青冈栎叶片

2010-04-07胡海波宋丁全

关键词:苦槠判别函数青冈

曹 静,胡海波,宋丁全

(南京林业大学森林资源与环境学院,江苏南京 210037)

0 前言

Fisher线性判别方法(Fisher Linear Discriminant Analysis,FLD)是1936年Fisher提出的[1]。它的目标是在原始样本空间里找到某(几)个方向,把样本投影到该方向上后分开的效果最好,即根据实际情况找到最易于分类的投影线[2]。Fisher线性判别是运用方差分析的思想来导出判别函数[3],即在已知研究对象分成若干类型,并已取得各种类型的一批已知样品的观测数据的基础上,用多元函数极值思想,通过使类间方差达到最大而类内方差达到最小,建立判别式,然后对未知类型的样品进行判别分析[4-5]。

近年来,Fisher线性鉴别分析在模式识别领域得到了广泛的应用和扩展[6]。游华等[7]运用Fisher判别法对于三类鸢尾花进行判别,取得了较为满意的结果。张焱等[8]基于Fisher判别分析对川金丝猴亚种进行鉴定,同样取得了良好的结果。钟绍军等[9]将Fisher判别法应用于乳房癌的诊断中,对未知乳房肿瘤性质的病例进行了成功的诊断。近年来,基于Fisher鉴别准则的线性鉴别分析方法在人脸识别、汉字识别等模式识别领域,均取得了较好的效果。如苑玮琦[10]、桑海峰[11]等基于二维 Fisher线性判别对人耳的识别;高全华等[12]基于Fisher准则特征融合策略对PNN车牌汉字识别的研究。

在植物识别的问题上,由于各植物之间的界线往往不一定很清晰,在许多情况下都带有模糊性。例如:描述一朵花是红色的,这个红色的概念有浅红色的、深红色的、紫红色的、桔红色的等,这是一个不明确的概念。而数值分类则是按一定数学方法,建立数学模型,对样本进行识别,相对而言比较客观。从植物分类学的角度来看,叶片是植物最为直观的外观特征之一,并且非常易于采集与携带。本文旨在通过建立Fisher判别模型对相似的两种叶片进行判别。选取苦槠(Castanopsis sclerophylla)和青冈栎(Cyclobalanopsisglauca)的叶片为研究对象,主要是由于两种植物叶型相似性较大,一般地,以叶锯齿及叶背面颜色区分,本文收集两种植物的叶片长度及叶片 1/2处宽度作为定量指标,从定量分析的角度对两种叶片的判别进行尝试。

1 Fisher判别分析方法

1.1 Fisher判别法的基本思想

Fisher判别法的基本思想是将高维数据点投影到低维空间(如一维直线)上,数据点比较密集,从而可以克服由于维数高而引起的“维数祸根”[1]。本文主要考虑两类(k=2)的情况,多类的情况可以依此类推。从两个总体中抽取具有 n个指标的样本观测数据,借助方差分析的思想构造一个判别函数或称为判别式:y=C1x1+C2x2+…+Cnxn,确定系数的原则是使两组间方差达到最大,而使每个组内部的方差达到最小,得出判别式之后,对于一个新的样本,将它的 n指标代入该判别式求出 y值,然后与判别临界值 C进行比较,依据判别准则就可以判别它属于哪一个总体。

1.2 Fisher判别函数的建立

设有两个类群(Ⅰ,Ⅱ),从两个类群中分别独立地抽取p和q个 n维样本,数据按类群分别排列如表1所示。

则两个类群的分类均值可以分别表示为:

表1 样本数据分列表

现假设判别函数为:

为了使判别函数能够很好地区分来自不同类群的样品,构造函数:

由此可确定判别函数的系数C1,C2,…,Cn,从而得出新的判别函数:

有了判别函数后,要进行判别还需确定判别值 C,在两两总体先验概率相等的条件假设下,一般取C为-y(1)和-y(2)加权平均值,即:

判别值

代入判别函数y=C1x1+C2x2+…+Cnxn,则判别规则为:对于新样品x,将其代入判别函数求得y值,如果y>C,则x属于第Ⅰ类;如果y<C,则x属于第Ⅱ类。

1.3 Fisher判别函数的运算步骤

②将样本数据回代至判别函数,计算两类重心,依式(6)计算判别值 C,再按判别规则判别。

③回判检验,计算误判率及判别准确度。

2 数据的采集与预处理

采集苦槠、青冈栎叶片各 50片。收集叶片长度和叶片 1/2处宽度的度量数据。取叶片长 l为横坐标,叶片1/2处宽度 d为纵坐标,将这些度量数据作出散点图,如图1所示。

从图1中可以看到:虽然长度l和宽度d的大量数据有随机性,但从总体上看,点的分布具有一定的规律性,苦槠和青冈栎在平面中各占据一定的区域。在图中寻找分界线,假如另有一个待鉴定的标本,度量了相应的叶长l和叶宽d,在坐标图中描点P(l,d),若P在分界线之上为青冈栎,在下为苦槠。于是获得一个利用作图进行判别鉴定的方法,在此基础上,把作图法定量化,用Fisher判别分析法进行判别分析。

图1 苦槠与青冈栎长度与宽度散点图

3 苦槠与青冈栎叶片分类Fisher判别模型的建立

类群Ⅰ:苦槠,指标n=2,原始数据p=50;

类群Ⅱ:青冈栎,指标n=2,原始数据q=50。

根据Fisher判别函数的运算步骤得出:

(2)d1=0.856;d2=-0.78。

(3)S11=532.851 6;S12=192.623;S22=81.851 4。

(4)判别系数C1=220;C2=-581;判别函数为y=220x1-581x2。

(5)判别值C=-4.914。

(6)回判检验,将建立模型的 100组样本数据逐一回判,结果显示判别准确率为 94%。

4 结果与讨论

(1)为了准确考察苦槠与青冈栎叶片Fisher判别模型的有效性与正确性,笔者另采集苦槠与青冈栎的样本数据各25枚,回判率为92%。50个扩大样本数据的Fisher判别结果如表2所示。

表2 50个扩大样本数据的Fisher法测定值判别结果

(2)笔者就叶形相似的浙江楠、紫楠叶片同样进行了Fisher判别函数的建立及判别,结果显示判别回归率为92%,此判别结果比较稳定,也表明Fisher判别分析对于同类问题的研究具有一定的实际意义。

(3)本文旨在为同类问题的研究提供一些基础。对于同类研究问题,如特征相似的多种植物的分类,可以根据需要选取各种特征作为参数进一步研究,若能客观地获得多组分类属性,同时进行最优组合因子的选取,将能有效地提高预测的准确度。

(4)本研究还有需进一步完善的地方:本文考虑取样的客观性及方便性,选取显示植物最直观特征之一的叶片为研究对象,有些难以准确量化的指标没有选取,指标体系有待完善;另外,由于文中选取的样本数据有限,在实际应用中需进一步积累数据。

[1] Fisher R A.The Use of Multiple Measurements in Taxonomic Problems[J].Annals of Eugenics,1936(7):179-188.

[2] 周德龙,高文,赵德斌.基于奇异值分解和判别式KL投影的人脸识别[J].软件学报,2003,14(4):783-789.

[3] 张露露.基于Fisher判别法的企业财务危机预警研究[J].企业导报,2010(2):47-48.

[4] 周静芋,宋世德,郭满才.常用费歇判别准则的比较[J].西北农林科技大学学报:自然科学版,2002,30(5):121-123.

[5] 颜可珍.基于Fisher判别分析法岩质边坡稳定性评价[J].公路,2010,1(1):1-4.

[6] Ahonen T,Hadid A,Pietikainen M.Face Description with Local Binary Patterns:Application to Face Recognition[J].IEEE Transaction on Pattern Analysis and Machine Intelligence,2006,28(12):2037-2041.

[7] 游华,郭福星.最优组合因子Fisher判别法[J].福州大学学报:自然科学版,2001,29(3):1-4.

[8] 张焱,汤强.Fisher判别分析法在川金丝猴亚种鉴定中的应用[J].生物数学学报,2003,18(2):238-242.

[9] 钟绍军,叶小青.费歇判别法在乳房癌诊断中的应用[J].黄冈师范学院学报,2004,24(3):27-31.

[10] 苑玮琦,郭伟芳,柯丽.基于二维Fisher线性判别的人耳识别[J].光电工程,2009,2(36):132-136.

[11] 桑海峰,金云平,苑玮琦.基于二维Fisher线性判别的人脸耳组合识别[J].光电子激光,2010,4(21):588-592.

[12] 高全华,张士勇,孙锋利.基于Fisher准则特征融合策略的PNN车牌汉字识别[J].现代电子技术,2010,8(319): 106-110.

猜你喜欢

苦槠判别函数青冈
苦槠树·苦槠豆腐
苦槠子
苦槠豆腐
苦槠树下的快乐年华
游乐设施事故与危险量化判别函数的构建
探究上市公司财务预警的数学模型
白龙江林区不同树种在葡萄酒中的应用初探
中国猛犸象故乡遗址古地磁测年结果在欧亚大陆猛犸象演化研究上的重要意义
西藏青冈活性炭的制备、表征及吸附研究
西南石漠化地区2种岩生优势树种的光合生理