

农业工程学报 2017年9期

王转卫1,赵春江2※,商 亮1,孔繁荣1,翁小凤1

(1. 西北农林科技大学机械与电子工程学院,杨凌 712100; 2. 国家农业信息化工程技术研究中心,北京 100097)

研究应用介电频谱技术实现对甜瓜的无损、快速及准确分类。以陕西杨凌某4家大棚外形相似的“红阎良”、“新早蜜”、“208”及“玛瑙”等4类成熟甜瓜为研究对象,采用矢量网络分析仪测量共246个样品在20 MHz~4 500 MHz的介电频谱。用Kennard-Stone 方法划分校正集与验证集,分别建立支持向量机(support vector machine,SVM)和极限学习机(extreme learning machine,ELM)种类判别模型,并比较全频谱(full frequencies,FF)、连续投影算法(successive projection algorithm,SPA)和主成分分析(principal component analysis,PCA)等不同预处理方法对模型精度的影响。结果表明:1)所建6个判别模型验证集总正确率均大于96%,均可用于甜瓜种类的判别。2)对比3种预处理方法,FF完好地保留了样品的原始信息,2种判别模型的验证集总正确率都达到了100%,但由于存在干扰信息导致模型稳定性不好;PCA方法选择能代表原谱信息99.99%的前10个主成分信息用来建模,能有效简化模型,但验证集每个模型均有误判,两种判别模型总正确率分别为96.72%及98.36%;SPA从202个变量中提取17个特征变量参与建模,验证模型整体稳定性较其他两种好,总正确率分别达到96.72%和100%。3)综合考虑判别模型的验证集总正确率及模型稳定性,SPA-ELM模型判别效果最好,验证集总正确率达到100%,更适用于基于介电频谱的甜瓜种类判别。因此,基于甜瓜的介电频谱,通过支持向量机和极限学习机方法可以成功区分甜瓜种类,为甜瓜的无损检测及分类研究提供了一种新方法。


0 引 言


目前国内外对于甜瓜的研究多集中在甜瓜病毒和甜瓜含糖量等领域,如 Nagata等[2]对黄化病毒的研究,Verzera等[3]对甜瓜果实甜度的快速定量测定,Dull等[4-7]利用光谱手段研究甜瓜糖度,姚永波[8]利用LCR测试仪无损检测甜瓜的糖度,而对于甜瓜的分类研究较少。文献显示Stepansky等[9]曾采用计算机视觉技术研究甜瓜的分类方法,但这种方法效率较低,而且主要是从外观来实现分类,而实际中外观相似的甜瓜品质差异也可能会很大。因此,利用现代检测技术,结合甜瓜内部品质对其进行分类研究很有必要。由于农产品的生理变化会反映在其介电参数上,所以通过检测介电参数可以用来判断农产品的品质变化情况。基于终端开路同轴探头技术的介电频谱检测方法被广泛应用于测量液体或含湿量比较高的半固体材料的介电特性[10],因此可用于对甜瓜种类的识别检测。


随着人工神经网络技术的发展,误差反向传播网络、径向基网络、支持向量机、极限学习机等机器学习模型以其学习能力强,预测精度高,建模效果稳定等优点被广泛应用于谱数据的分析中[18-20]。本研究以成熟甜瓜为研究对象,采集20~4 500 MHz频率间甜瓜的介电频谱,结合支持向量机及极限学习机建模方法,研究甜瓜种类判别问题,以期为甜瓜的品质无损检测与分类研究提供参考。

1 材料与方法

1.1 试验样品

本研究用试验样品于试验前1 d分别采摘自陕西杨凌某4家农户大棚瓜地,品种分别为种植量较大的“红阎良”、“新早蜜”、“208”及“玛瑙”。采摘时综合考虑阳面、阴面及是否贴地等对果实品质的影响。中熟型厚皮甜瓜开花后一般35 d左右即可上市,本研究用试验样品是开花后40 d的成熟甜瓜。4类样品(分别简称为v1,v2,v3及v4)数量分别为91,80,41和34个,样品总数246个。所有样品外形相似(类球形)、大小相近(500 g左右)、无损伤且表皮颜色均匀。采摘后的样品存放在室温(24±2)℃实验室,测试前将样品擦净晾干并编号。

1.2 仪器及数据处理软件

E5071C型矢量网络分析仪、85070E末端开路同轴探头及85070C软件(Agilent Technologies,马来西亚),Matlab(R2011a,Math Works,马萨诸塞州,美国),Unscrambler v10.2(CAMO,奥斯陆,挪威)等。

1.3 测试步骤



1.4 数据分析及处理方法

1.4.1 样品集划分方法

本研究采用经典的Kennard-Stone(KS)方法进行样品集的划分。该方法基于样品介电谱差异选择转换集样品的划分方法,划分结果是将介电谱差异较大的样品选入校正集,将其余相近样品归入验证集,保证代表性强的样品全部划入校正集,进而最大程度地使校正集样品分布均匀。KS 方法被普遍应用在谱数据的定性分析领域[22-23]。

1.4.2 介电谱预处理方法

本研究中预处理方法选择主成分分析(principal component analysis, PCA)和连续投影算法(successive projection algorithm, SPA),并与不做预处理的全频谱(full frequencies,FF)信息下的判别模型做对比研究。PCA是一种面向模式分类的数据降维方法,是在保证尽可能多地反映原始信息的基础上,用较少的一些主成分代替原来较多的分析元素,从而达到简化模型的目的,目前已被广泛应用到谱数据压缩、图像处理等领域。SPA是一种前向循环的变量选择方法,能降低模型复杂度,有效消除各变量间的线性相关影响,使优选变量更具有代表性[24-26]。

1.4.3 建模方法

本研究选取两种建模方法,分别为支持向量机(support vector machine, SVM)和极限学习机(extreme learning machine, ELM)。SVM作为一种非线性网络校正方法,可以有效提高建模效率,较好解决小样本、非线性问题。ELM方法具有学习速度快、泛化性能好等特点,在模式识别和非线性拟合等方面具有明显优势[27-31]。

2 结果与分析

2.1 甜瓜的介电特性

图2所示为4种甜瓜在不同频率下的介电特性变化曲线,可以看出所有甜瓜样品的介电参数随频率变化规律类似。其中,相对介电常数' 均随频率增大而减小(见图2a),且在低频段减小迅速,在200 MHz以后减小明显缓慢;介质损耗因数'' 随频率的增大先减小,而在1 000 MHz以后稍有增大(图2b)。另外,从图2中可以看出,不同品种甜瓜间介电参数存在种类差异,特别是在低频段,大部分品种间差异明显,因此,基于甜瓜介电特性可以对其进行分类研究。但图2a显示,v1、v3的' 曲线重叠较严重;图2b显示,高频段所有甜瓜的''曲线重叠较严重,所以仅通过介电参数频率曲线难以实现种类的完全识别,还需借助合适的数学分析方法来解决,本研究在介电谱数据基础上,通过合理的样本划分,并结合不同的数据预处理方法及建模方法来提高总体识别率。

2.2 校正集与验证集的划分


2.3 PCA预处理

应用Matlab 2011a中的princomp()函数对样品的原始介电谱进行主成分分析,所得前10个主成分的累积贡献率见表2。从表2中可以看出:前6个主成分的累积贡献率已达到99.926%,即前6个主成分所携带的信息量已反映了原始频谱99.9%以上的信息,但若选取过少的主成分可能会丢失少部分有效信息,影响最终建模效果。因此,为保证更少损失原始介电谱的有效信息,并使数据处理效率较高且模型运算相对简单,本研究选取累积贡献率达到99.99%以上的前10个主成分用于后续种类识别模型的建立。

表1 Kennard-Stone样品集划分结果

表2 前10个主成分的累积贡献率

2.4 SPA预处理

应用SPA对甜瓜介电频谱进行特征频率选取。SPA方法提取的特征频率数目取决于校正集的交叉验证均方根误差(root mean square error,RMSE)值,RMSE随特征变量数的增加而不断减小,以其不再显著减小时的变量数作为最佳特征变量数。本研究中设定特征频率数范围为3~30,RMSE变化曲线如图3所示,当频率个数大于17时,RMSE不再显著减小,据此优选出17个特征频率变量。所选特征频率及对应的介电参数见表3。

表3 SPA选取的17个特征频率

2.5 支持向量机及极限学习机训练参数选择


经全频谱(full frequencies,FF)、PCA与SPA预处理后分别建立的SVM、ELM种类判别模型的各参数选取结果见表4。

表4 SVM及ELM模型参数

2.6 甜瓜种类识别效果比较分析


表5 SVM和ELM的甜瓜种类判别结果

从表5中可看出,在6种判别模型中,FF-SVM,FF-ELM及SPA-ELM 3种模型的总验证正确率均达到100%,其中SPA-ELM校正模型最稳定,只对一个品种有误判,说明此模型更适合用于甜瓜种类的判别。

对比3种不同预处理方法,FF完好地保留了样品的全部信息,验证总正确率最高,但因为存在噪声干扰、数据重叠等问题,导致模型整体稳定性不是最好;PCA方法从原始数据中筛选出前10个主要成分信息作为输入变量,能有效简化模型,但每个模型对验证集都有误判,所以总正确率不高;SPA方法从原始数据中提取出17个主要特征变量参与建模,验证结果整体比较稳定,总正确率较高。对比SVM和ELM 2种建模方法,都是将问题被动映射到高维空间做分类,但SVM核函数决定了唯一的映射方式,而ELM映射方式很多,且ELM的训练速度更快,所以ELM模型整体效果更好。

3 结 论

本研究基于介电频谱无损检测技术,对“红阎良”、“新早蜜”、“208”及“玛瑙”等4种成熟甜瓜样品分别建立了支持向量机(support vector machine, SVM)和极限学习机(extreme learning machine, ELM)2种分类判别模型,并分别比较了全频谱(full frequencies,FF)、主成分分析(principal component analysis, PCA)和连续投影算法(successive projection algorithm, SPA)等3种不同数据预处理方法对简化模型、提高模型准确度及稳定性的影响。结论如下:





Nondestructive testing of muskmelons varieties based on dielectric spectrum technology

Wang Zhuanwei1, Zhao Chunjiang2※, Shang Liang1, Kong Fanrong1, Weng Xiaofeng1


To classify muskmelons quickly and accurately based on dielectric spectroscopy, dielectric properties of 4 kinds of melons (a total of 246) were measured with network analyzer over the frequency range from 20 to 4 500 MHz. The samples were selected from 4 different greenhouses in Yangling, Shaanxi Province, which had similar shape and size, and had no injury and disease. All samples were divided into calibration set and validation set with a ratio of about 3:1 based on Kennard-Stone method. Methods of support vector machine (SVM) and extreme learning machine (ELM) were applied to establish discriminative models of muskmelons. We chose 2 different variable selecting methods as pre-processing methods before modeling. One method was principal component analysis (PCA) for data dimension reduction, and the other was successive projections algorithm (SPA) for characteristic variables selecting. The model validating effects after the processing of PCA and SPA were used to compare with that with no pre-processing; besides, directly modeling with full frequencies (FF) spectra data was also adopted. The results were shown as below: 1) All discriminative models under FF, PCA and SPA methods could be used for classifying muskmelons. The total correct rate of each validation set reached over 96%, and the ELM modeling method was better than SVM method as a whole. 2) The models based on the FF method retained all original information of the frequency spectra data, so it had the highest validation correct rate, up to 100%. But its stability and reliability were not good enough because of the existing interference information. Under the PCA method, the accumulating contribution rate of the former 10 principal components extracted from all variables approached to 99.99%, which well reflected original information while simplifying the model in some degree and improved performance of models, however, the results were not very stable and the total correct rate of 2 models was much lower than others, up to 96.72% and 98.36% respectively. Seventeen characteristic variables were selected by the SPA from all 202 variables for modeling, which not only simplified the model and improved its performance, but also had the higher accuracy. Therefore, the SPA method was more suitable for the variables selecting based on dielectric spectrum. 3) In all models, SPA-ELM had the minimum misjudgments and the highest total correct rate, which was more suitable for classifying muskmelons according to dielectric frequency spectra. Therefore, it’s feasible to classify muskmelons based on dielectric spectrum by the modeling methods of SVM and ELM. It also shows that the dielectric spectrum technology can be used to do more research on muskmelon classification and grading, and provides the new theory and methods for future research about nondestructive detection of muskmelons.

dielectric properties; support vector machine; models; muskmelon; extreme learning machine; classification










