APP下载

聚类算法在玉米叶片病斑降维识别中的应用

2015-04-17朱景福李雪

江苏农业科学 2015年1期
关键词:聚类算法识别

朱景福 李雪

摘要:为了及时、准确地识别玉米病害,基于聚类识别算法,进行了玉米叶片病斑图像识别的对比试验。首先利用LLE算法对玉米图像降维以提取特征,然后采用K-均值算法、FCM算法和GK算法进行聚类分析,其中GK算法能够有效识别出玉米病斑图像,正确识别率高达95.5%。可见,GK模糊聚类算法对玉米病斑图像的识别效果较好。

关键词:聚类算法;GK算法;玉米叶片病斑;识别

中图分类号: TP391.4文献标志码: A文章编号:1002-1302(2015)01-0405-02

收稿日期:2014-03-14

基金项目:黑龙江省自然科学基金面上项目(编号:F201428);黑龙江省教育厅面上项目(编号:12541596);黑龙江八一农垦大学校博士启动金项目(编号:XDB2009-17)。

作者简介:朱景福(1970—),男,黑龙江克山人,博士,教授,主要从事计算机应用研究。E-mail:jingfuz@163.com。聚类是一种常见的数据分析工具,目的是把大量数据点的集合分成若干类,使得同一类中数据点之间的距离尽可能小,而不同类中数据点之间的距离尽可能大。聚类算法在商业、金融、图像处理、信息检索等领域得到了有效的应用[1]。本研究选取3种聚类算法(K-均值算法、FCM算法和GK算法)用于玉米叶片病斑图像的识别,通过对比研究最终确定将GK算法作为玉米病斑图像的识别算法。

1聚类算法

传统的聚类算法主要有K-均值算法、K-Modes算法等[2],其分类属于硬划分,具有明显的类别界限。然而现实中存在大量属性界限不分明的对象,模糊聚类算法为处理这些对象提供了重要的方法。模糊聚类算法主要有FCM算法、GK算法和KFCM算法等[3]。本研究主要选用聚类算法中经典的K-均值算法、FCM算法及FCM的改进算法(GK算法)进行对比分析。

1.1K-均值算法

K-均值算法(别称硬C-均值聚类算法)是聚类分析中基于划分方法的一种经典算法,由于其具有理论可靠、算法简单、收敛速度快等优点在实践中得到了广泛的应用[4]。

把n个向量xj(j=1,2,…,n)分成c个类Gi(i=1,2,…,c),并求出每个类的聚类中心,K-均值算法的处理过程为[1]:(1)随机选取c个向量作为每个类的聚类中心。(2)初始化隶属度矩阵U。(3)计算J=∑ci=1Ji=∑ci=1(∑k,xk∈Gi‖xk-ci‖2)的代价函数值。(4)当代价函数值高于一个给定的最小阈值或者连续2次的值之差大于这个最小阈值时,根据公式ci=1|Gi|∑k,xk∈Gixk来更新各个聚类中心,其中|Gi|=∑nj=1uij,然后直接返回步骤(2)继续运算;否则停止运算。

1.2FCM模糊聚类算法

目前,FCM模糊聚类算法[5]是理论最完善、应用最广泛的模糊聚类算法之一。FCM模糊聚类算法是K-均值算法的推广。FCM模糊聚类算法的处理过程为[6]:(1)初始化隶属度矩阵U。(2)根据公式ci=(∑nk=1umikxk)/(∑nk=1umik)(i=1,2,…,c)计算每个类的聚类中心ci,i=1,2,…,c,其中uik是元素i相对于类k的隶属度。(3)根据公式Jm=∑nk=1∑ck=1umik‖xk-ci‖2计算代价函数值。(4)当代价函数值高于一个给定的最小阈值或者连续2次的值之差大于这个最小阈值时,根据公式u(t+1)ik=‖xk-c(t)ii‖-2/(m-1)∑cj=1‖xk-c(t)j‖-2/(m-1) 计算新的矩阵U,然后直接返回步骤(2)继续运算;否则停止运算。

1.3GK模糊聚类算法

GK模糊聚类算法[7]是FCM聚类算法的一种改进,是采用聚类协方差矩阵的自适应距离来度量的方式进行聚类,更能真实地反映不同样本集合的分布情况[8]。

GK模糊聚类算法的处理过程为[9]:(1)初始化隶属度矩阵U。(2)根据公式ci=(∑nk=1umikxk)/(∑nk=1umik)(i=1,2,…,c)计算每个类的聚类中心ci,i=1,2,…,c。(3)根据公式Fi=[∑nk=1umik(xk-ci)(xk-ci)T]/∑nk=1umik 计算协方差矩阵Fi,通过Ai=det(Fi)1nF-1i求出正定对称矩阵Ai。(4)根据D2ik=‖xk-ci‖2Ai=(xk-cj)TAi(xk-ci)计算距离范数D2ik。(5)根据uik=1∑cj=1(Dik/Djk2/(m-1)更新矩阵U,当连续2次的值之差小于一个给定的最小阈值时则停止,否则转向步骤(2)。

2聚类数据的获取

2.1样本图像的采集和预处理

2.1.1样本图像的采集在玉米病害比较严重的7—9月,在黑龙江八一农垦大学试验田中采用SONY DSC-W350D型号相机采集玉米大斑病的病害图像,至少采集300幅无病害图像和300幅病害图像(图1)。

2.1.2样本图像的预处理运用图像分割算法把无病害图像(图2-a)、病害图像(图2-b)分别分割成只含有绿色叶片的图像、只含有叶片背景和病斑的图像[10],图像大小均为131像素×86像素。分别选取100幅无病害图像、病害图像,为后续试验作准备。

2.2样本数据的降维

一幅叶片图像的维数是非常高的,巨大的计算量使处理速度变得非常慢,因此需要对预处理后的数据进行降维。局部线性嵌入(LLE)算法被称为非线性降维算法的里程碑,因此选用LLE算法对预处理后的200幅图像进行降维以提取特征,分别降到2、3、4、5、10、20、30、50维并保存,其中降至2、3维后的效果如图3所示。

3聚类识别对比试验

为了探究哪种聚类算法更适合玉米病斑图像的识别,采用K-均值算法、FCM算法和GK算法对降维后的数据进行聚类(聚成2类)分析,得到的正识率(试验证明:误识率=1-正识率,漏识率=0)如表1所示。从表1可知,GK算法的正识率虽然在30维时稍低于K-均值算法和FCM算法,但整体上GK算法的聚类正识率远远高于K-均值算法和FCM算法。endprint

玉米病害图像本身具有模糊性,在病斑边界上的像素中常常包含病斑和叶片背景2种像素,病斑和背景的分界线不是很清晰。因此,基于模糊集合理论的模糊聚类算法对病斑图像的正确识别率高于传统的聚类算法。由表1可见,GK算法的聚类正识率明显高于FCM算法,证明GK算法是对FCM算法的改进。

表13种算法的正识率

算法不同维数下的正识率(%)2维3维4维5维10维20维30维50维K-均值76.576.576.576.576.576.576.576.5FCM76.576.576.576.576.577.077.577.5GK79.588.589.095.595.595.074.585.5

4总结

本研究均采用Matlab 7.1编程语言,针对玉米病斑图像模糊和不确定的特点,选用模糊聚类算法中的GK模糊聚类算法,成功地识别出玉米的病斑图像。在对200幅图像进行识别的试验中,GK算法的正识率达到95.5%,远远高于K-均值算法和FCM算法。因此,最终选取GK模糊聚类算法作为玉米病斑图像的识别方法。

参考文献:

[1]王慧. C-均值聚类算法的改进研究[D]. 开封:河南大学,2011:1-27.

[2]梁吉业,白亮,曹付元. 基于新的距离度量的K-Modes聚类算法[J]. 计算机研究与发展,2010,47(10):1749-1755.

[3]蔡威. 模糊聚类算法在数据挖掘中的应用研究[D]. 兰州:兰州交通大学,2012:13-29.

[4]贲志伟,赵勋杰. 基于改进的K均值聚类算法提取彩色图像有意义区域[J]. 计算机应用与软件,2010,27(9):11-13.

[5]Kannan S R,Devi R,Ramathilagam S,et al. Effective FCM noise clustering algorithms in medical images[J]. Computers in Biology and Medicine,2013,43(2):73-83.

[6]张鸿彦,许奇功. 模糊聚类算法的优化设计[J]. 河南大学学报:自然科学版,2013,43(4):451-454.

[7]Dagher I. Complex fuzzy c-means algorithm[J]. Artificial Intelligence Review,2012,38(1):25-39.

[8]张妨妨,钱雪忠. 改进的GK聚类算法[J]. 计算机应用,2012,32(9):2476-2479.

[9]王书涛,李亮,张淑清,等. 基于EEMD样本熵和GK模糊聚类的机械故障识别[J]. 中国机械工程,2013,24(22):3036-3040,3044.

[10]张飞云. 基于提升小波和学习向量量化神经网络的小麦病害图像识别[J]. 江苏农业科学,2013,41(5):103-106.杨靖华,陈龙正,徐海,等. 苏中地区早春连栋大棚不同覆盖层次间的气温变化[J]. 江苏农业科学,2015,43(1):407-408.endprint

猜你喜欢

聚类算法识别
基于K?均值与AGNES聚类算法的校园网行为分析系统研究
法学意义上的弱者识别问题研究
青岛市中山公园园林树木易混淆品种识别