APP下载

基于BiPLS-SPA优选近红外光谱的木材基本密度预测1)——以柞木为例

2016-11-19张怡卓涂文俊李超潘屾

东北林业大学学报 2016年10期
关键词:方根波长区间

张怡卓 涂文俊 李超 潘屾

(东北林业大学,哈尔滨,150040)



基于BiPLS-SPA优选近红外光谱的木材基本密度预测1)
——以柞木为例

张怡卓 涂文俊 李超 潘屾

(东北林业大学,哈尔滨,150040)

以柞木为研究对象,以900~1 700 nm的近红外光谱仪获取木材表面近红外光谱数据,对89个柞木样本进行检测,其中58个组成校正集,31个为预测集。首先,采集样本径切面光谱数据,并利用SG平滑对光谱数据进行预处理;然后,利用反向区间偏最小二乘(BiPLS)选出均方根误差最小的波长区间组合;再利用连续投影算法(SPA)进一步选择出波长特征;最后,以优选出的波长特征作为输入,建立偏最小二乘法回归模型,确定出木材基本密度与近红外光谱之间的联系。BiPLS算法将光谱划分区间划分为10时,均方根误差最小,其最佳区间组合为[3 5 6 7 9],变量个数由全光谱117个降至59个;应用SPA算法二次降维,变量个数降至6个,降低变量信息的冗余,减少了变量个数,提高了建模的速度和效率。BiPLS-SPA模型较PLS、iPLS、BiPLS、SPA-PLS具有更高的相关系数,更小的均方根误差,柞木基本密度预测相关系数为0.925,预测均方根误差为0.010 4,相对分析误差为2.83。

木材;柞木;基本密度;近红外;偏最小二乘法;连续投影算法

WithXylosmaracemosumas the research object, 900-1 700 nm near-infrared spectrometer was used to obtain wood surface spectral data. The 89X.racemosumsamples were detected, of which 58 composed the calibration set, and 31 were used for the prediction set. Firstly, the diameter section spectral data was acquired and preprocessed by SG smoothing method; Secondly, backward interval partial least squares (BiPLS) was implemented to divide the spectrum into several wavelength interval, and intervals with the smallest RMSE were selected as a data combination; thirdly, successive projections algorithm (SPA) was chosen to select the wavelength characteristics from the data combination; Then, using optimized characteristics as the input variable, partial least squares regression model can be established and finally the correlation between the near infrared spectrum and wood basic density was built. The RMSECV had minimum value when the spectrum was divided into 10 intervals, and the optimum interval combination was [3 5 6 7 9], and the number of variables dropped from 117 to 6. Consequently, the number of variables were reduced and the modeling speed was increased. BiPLS-SPA model has a higher correlation coefficient than the PLS, iPLS, BiPLS, SPA-PLS method. The prediction correlation coefficient ofX.racemosumbasic density is 0.925, with the RMSEP of 0.010 4, and the RPD of 2.83.

近红外光谱分析具有无损、安全的特点,国内外学者已利用近红外光谱分析技术开展了木材性质的研究[1-5]。由于近红外光谱区域存在与木材基本密度不相关或者相关性较小的特征,在建模过程中一定程度的引入了冗余信息,导致增加了偏最小二乘回归过程的预测方差,降低了模型精度。因此,本文提出应用反向区间偏最小二乘法(BiPLS)结合连续投影方法(SPA)的算法筛选特征光谱变量,在此基础上应用偏最小二乘回归算法建模。实验以我国东北保护林中主要的次生林树种柞木为研究对象,将所选择特征波长点对应的数据作为建模变量,建立校正模型以验证模型精度。

1 材料与方法

1.1 试验材料

柞木(Xylosmaracemosum),大风子科柞木属常绿大灌木或小乔木。实验试材采自黑龙江省五常市林业局冲河林场,北纬44°37′55″~44°47′52″,东经127°35′55″~127°55′51″,平均海拔350 m。该地区属温带大陆性季风气候,最高温度35 ℃,最低零下34 ℃,年平均气温2.3 ℃,年降水量750 mm,土壤以暗棕壤为主,谷地草甸土和沼泽土仅少量分布。在柞木人工林内,取12株样木,树龄20 a,伐倒并标记树木生长方向,在每株标准木的胸高(1.3 m)附近连续截取5 cm圆盘。带回实验室将每个圆盘去皮后,按照GB1929—2009制取20 mm×20 mm×20 mm的密度试样,并挑选出无缺陷、无明显颜色差异试样89个。

1.2 近红外光谱仪与样品光谱获取

实验中选用INSION公司超紧凑型近红外光纤光谱仪对木材样本进行光谱扫描,光谱波长范围900~1 700 nm,分辨率9 nm,使用两分叉光纤探头采集样品表面的近红外光谱。实验室温度、湿度基本恒定,室内温度控制在20 ℃,平均相对湿度为50%。国内外学者研究发现1 000~1 600 nm光谱承载木材重要信息,通过非全波光谱建模,能较好地预测木材密度、力学强度等[6-7]。本研究利用INSION公司开发的SPEC view 7.1软件进行数据采集。

光纤探头固定在支架上,探头对试样垂直、非接触测量,距离1 mm,光斑直径5 mm,光谱获取示意图如图1所示。每个切面均匀采集5个样点,每点扫描30次自动平均为1个光谱,记录保存。每个切面的多组光谱平均成1条光谱。由于木材的生长特

性,导致了木材不同切面的近红外吸收光谱吸收峰不同,但光谱趋势相似(见图2),考虑到生产实际测量,在此选择径切面光谱进行分析。

图1 木材试样近红外采集

图2 木材3个切面近红外光谱

1.3 柞木基本密度真值测量

柞木基本密度按照GB1933—2009《木材密度测定方法》进行测定(见表1)。在89个试样中,以2∶1分为校正集和预测集,以58个校正集样品建立校正模型,剩余31个作为预测集对模型进行验证,其中密度最大和最小样品归为校正集。由表1可见,密度值范围0.694 2~0.837 5 g/cm3,预测集样品密度信息被校正集样品密度信息所覆盖。

表1 样品校正集和预测集基本密度的测定结果

1.4 光谱数据预处理方法

为了消除高频噪声、基线漂移、光散射等影响,将光谱数据转换成吸收度值后,需要对光谱进行预处理。由于Savitzky-Golay(SG)平滑处理能消除基线漂移和倾斜、抑制高频噪声[8-9],在此选择SG平滑进行预处理,其基础思想如下:

设光谱信息x(n)中的1组数据为x(i),i的取值为2m+1个连续的整数,x(i)组成一个“窗口”。现构造1个p次多项式对数据点进行拟合,如公式(1):

(1)

数据拟合时存在误差,总误差平方和如公式(2):

(2)

为使滤波前后的波形不产生较大偏差,所以拟合误差要足够小。令E对各系数的导数为0,可得公式(3):

(3)

式中:r=0、1、…、p。只需给定拟合窗口系数m、多项式的阶次和待拟合的数据x(i),就可以确定多项式y,即平滑处理后的光谱信号。

1.5 BiPLS-SPA特征波长选择算法

连续投影算法(SPA),能利用向量的投影分析,寻找含有最低冗余信息的变量组,并使变量之间的共线性达到最小而同时减少建模所用变量的个数,进而提高建模的速度和效率[10-11]。然而,SPA在全波段寻找最低限度冗余信息的变量时,计算量较大。在此提出,进行SPA计算之前对全波段变量进行筛选,通过选取波段,以减少SPA的计算量。

本文提出BiPLS-SPA算法是对SPA数据降维的改进。此方法主要分4个步骤:①将全光谱波段等分成w个子区间,在每个区间分别建立偏最小二乘回归模型;②计算各个子区间的均方根误差,比较各局部模型的精度;③依次减少信息量最差或共线性变量最多的v个子区间,在剩余的m-v区间上建立PLS模型,当均方根误差最小所对应的多个区间即为所优化的组合区间;④在BiPLS选出的子区间基础上,采用SPA进行特征波长的选取。

1.6 模型评价

采用偏最小二乘(PLS)建立柞木基本密度的最终模型,模型因子数由交叉验证法确定。校正模型评价参数:决定系数(R2)、建模均方根误差(RMSEC)、预测均方根误差(RMSEP)和验证集标准偏差与预测标准偏差的比值相对分析误差(RPD)。一个好的模型通常具有低建模均方根误差和预测均方根误差值,高R2和相对分析误差值。当相对分析误差值属于1.5~2.0之间表示所建模型有一定的预测能力,当大于2.0小于等于2.5时表明粗略的定量预测是可行的,当大于2.5小于等于3.0时表示所建模型有较好的预测精度。上述各种算法以及模型的建立与评价均采用Matlab R2012a软件完成。

2 结果与分析

2.1 光谱预处理实验结果

采用不同光谱预处理方法对全波段光谱进行预处理,并建立PLS模型。实验采用常用的SG平滑法、一阶导数和二阶导数对光谱信息进行预处理,建立PLS模型。

在实验过程中发现,SG平滑窗口选择较小时噪声滤除效果不明显;窗口选择过大会信号失真;当平滑窗口大小为7时效果最好。由表2可见:采用SG平滑法的预测效果最好;一阶导数虽然提高了校正集相关系数,但预测精度却下降;二阶导数的预处理效果最差。因此,后续实验采用SG平滑算法完成预处理。

表2 不同预处理方法对建模结果的影响

2.2 反向区间偏最小二乘变量筛选结果

对柞木基本密度全光谱进行BiPLS变量筛选,将906.9~1 863.9nm光谱区域117个波数点,分为w个子区间,本文取w的范围为5~15。当w取不同值时,采用BiPLS选择的特征子区间(见表3)。由表3可见:当光谱区间划分为10时,对应的交叉验证均方根最小,此时确定柞木基本密度最佳组合区间为[3 5 6 7 9],共选出5个子区间。

表3 BiPLS子区间优选结果

图4为柞木基本密度BiPLS方法选择的特征区间,图中被填充的波段区间为被选中的区间,对应的波段范围1 103.7~1 194.1、1 301.1~1 391.8、1 400.1~1 490.9、1 499.2~1 590.2、1 689.6~1 772.6nm,共59个波长变量。

2.3 SPA特征波长选择结果

实验在全光谱SPA波长选择和BiPLS选择波段后的SPA波长提取方面进行比较分析。采用SPA对全波段光谱共117个变量进行处理,图4显示了不同变量个数的均方根误差变化。从中可以看到,变量个数从1个到4个时均方根误差下降较快。当变量个数为11时,均方根误差值最小,为0.012 5。将得到的11个变量作为输入,建立PLS模型。

图3 BiPLS算法选择的区间组合

图4 均方根误差随SPA选取变量个数的变化情况

利用BiPLS选择的波长区间1 103.7~1 194.1、1 301.1~1 590.2、1 689.6~1 772.6nm,在此范围内采用SPA进行波长选择,特征波长数为6,较SPA对

全光谱选择的特征更少,同时可以表达光谱数据与柞木基本密度之间的关系。图5为BiPLS-SPA选取变量过程。

2.4 模型结果分析与模型评价

用预测集样本对校正模型进行测试。分别采用预测集样本的光谱信息对PLS、iPLS、biPLS、SPA-PLS、BiPLS-SPA-PLS模型进行基本密度预测(见表4)。图6为BiPLS-SPA波长选择方法的预测散点分布图。实验结果表明:利用BiPLS-SPA优选特征变量建模,柞木基本密度预测模型的相关系数为0.925、预测均方根误差为0.0104、相对分析误差为2.83,本文方法能较好预测柞木基本密度,BiPLS-SPA特征选择建立模型的相关系数最高。

(a)均方根误差随选取变量个数的变化 (b)最终选取变量

图5 BiPLS-SPA选取变量

(a)校正集 (b)预测集

图6SPA-iPLS选择7个波长建立模型的预测散点分布

3 结果与讨论

本文采用近红外光谱分析技术预测柞木基本密度,应用BiPLS定位出光谱的若干信息区间,考查不同区间分割数对BiPLS波长选择及对应的模型预测性能的影响,然后采用SPA算法对BiPLS选取的变量进行二次筛选。结果表明:当区间分割数为10时,BiPLS优选变量建模结果最优,采用BiPLS-SPA选择的变量数由原始光谱的117个减少到6个,对应模型的相关系数为0.925、预测均方根误差为0.010 4,较PLS、iPLS、BiPLS、SPA-PLS模型更能准确表示木材基本密度与近红外光谱之间的关系。

[1]SANTOSAJA,ALVESAMM,SIMESRMS,etal.EstimationofwoodbasicdensityofAcaciamelanoxylon(R.Br.)bynearinfraredspectroscopy[J].JournalofNearInfraredSpectroscopy,2012,20(2):267-274.

[2]JONESPD,SCHIMLECKLR,PETERGF,etal.NondestructiveestimationofPinus taedaL.woodpropertiesforsamplesfromawiderangeofsitesinGeorgia[J].CanadianJournalofForestResearch,2005,35(1):85-92.

[3]ALVESA,SANTOSA,ROZENBERGP,etal.Acommonnearinfrared-basedpartialleastsquaresregressionmodelforthepredictionofwooddensityofPinus pinasterandLarix×eurolepis[J].WoodScienceandTechnology,2012,46(1):157-175.

[4] 江泽慧,黄安民,王斌.木材不同切面的近红外光谱信息与密度快速预测[J].光谱学与光谱分析,2006,26(6):1034-1037.

[5] 李耀翔,张鸿富,张亚朝,等.基于近红外技术的落叶松木材密度预测模型[J].东北林业大学学报,2010,38(9):27-30.

[6] 杨忠,江泽慧,费本华,等.近红外光谱技术及其在木材科学中的应用[J].林业科学,2005,41(4):177-183.

[8]SAVITZKYA,GOLAYMJE.Smoothinganddifferentiationofdatabysimplifiedleastsquaresprocedures[J].AnalyticalChemistry,1964,36(8):1627-1639.

[9] 刘桂松,郭昊淞,潘涛,等.Vis-NIR光谱模式识别结合SG平滑用于转基因甘蔗育种筛查[J].光谱学与光谱分析,2014,34(10):2701-2706.

[11]GALVORKH,JOMCU,FRAGOSOWD,etal.AvariableeliminationmethodtoimprovetheparsimonyofMLRmodelsusingthesuccessiveprojectionsalgorithm[J].ChemometricsandIntelligentLaboratorySystems,2008,92(1):83-91.

XylosmaracemosumBasic Density Prediction with BiPLS-SPA and Near Infrared Wavelength Optimization//

Zhang Yizhuo, Tu Wenjun, Li Chao, Pan Shen

(Northeast Forestry University, Harbin 150040, P. R. China)//Journal of Northeast Forestry University,2016,44(10):79-83.

Wood;Xylosmaracemosum; Basic Density; Near infrared; BiPLS; SPA

1)国家林业局“948”项目(2015-4-52)。

张怡卓,男,1978年12月生,东北林业大学机电工程学院,教授。E-mail:nefuzyz@163.com。

2016年5月12日。

S781.31;TP391.4

责任编辑:张 玉。

猜你喜欢

方根波长区间
你学会“区间测速”了吗
全球经济将继续处于低速增长区间
我们爱把马鲛鱼叫鰆鯃
均方根嵌入式容积粒子PHD 多目标跟踪方法
基于频域分析方法的轨道高低不平顺敏感波长的研究
日本研发出可完全覆盖可见光波长的LED光源
区间对象族的可镇定性分析
数学魔术——神奇的速算
RP—HPLC波长切换法同时测定坤泰胶囊中6个成分的含量
数学魔术