基于光谱的春季育苗移栽期番茄苗健壮度量化检测

2022-06-06姬江涛李鹏阁李明勇

光谱学与光谱分析 2022年6期

姬江涛，李鹏阁，金鑫*，马淏，李明勇

1.河南科技大学农业装备工程学院，河南洛阳 471003 2.机械装备先进制造河南省协同创新中心，河南洛阳 471003

引言

穴盘苗的培育和移栽是蔬菜生产的重要环节，也是农业增收、确保农产品供给安全的精耕细作重要农艺措施。目前国内工厂化育苗的形式正在逐渐推广，温室大棚在进行番茄穴盘苗培育过程中，考虑到不同季节条件下的大田移栽环境，适宜的番茄秧苗培育苗龄也会发生改变，其中春季移栽的适宜苗龄为55～60 d。为了提高培育效率，需先将种子播种在较高密度的穴盘内，经过一段时间生长后，幼苗间会出现互相挤占生长空间的情况，导致其生长缓慢和发育失衡，所以需要在它们生长至适当的叶面积指数时，将其移栽到较低密度的穴盘中[1]。在该育苗期移栽的过程中，还需对其健壮程度进行评判，筛选剔除不合格的幼苗和补入优苗，以保证最终移栽期的幼苗质量。因此，需要建立育苗移栽期幼苗的健壮度评价指标和实现其快速检测。

传统的壮苗指标包括株高、茎粗、鲜重、干重等单项指标及其组合而成的(茎粗/株高+根重/冠重)×苗干重、茎粗/株高×苗千重/茎的复合指标，应用广泛但主要以形态指标为基础且穴盘育苗密度大、营养面积小和根际环境变化大，这同传统育苗方式相比有很大差异，使得评价结果难以体现实际情况[2]。叶绿素是叶片进行光合作用，积累有机物的重要化学色素指标，作为主要的光合作用场所，叶片的叶绿素含量与幼苗的质量评价关系密切[3-4]。因此结合形态指标和色素指标，对育苗移栽期的番茄苗进行健壮度评价的结果更加全面和准确。

检测体现健壮特征各项指标的手段主要包括机器视觉和光谱检测，相关的研究较为广泛。杨斯等[5]利用机器视觉识别快速分析和判断苗高信息，所得苗高结果的平均测量误差为2.30 mm, 平均测量相对误差为7.69%；丁永军等[6]利用线性四点内插法估测番茄叶片叶绿素含量，根据4个波段(670，700，740和780 nm)的叶片反射率计算红边位置，所建模型效果良好，其相关系数r为0.875；David等[7]在395～885 nm波长范围内对冷胁迫幼苗进行扫描，并用支持向量机(SVM)建立了分类模型，结果显示，以590和873 nm为特征波长的分类效果较佳。以上研究表明可见-近红外光谱技术在番茄幼苗元素含量检测和环境胁迫方面具有重要意义，但针对春季育苗移栽期的番茄穴盘苗，能反映多信息融合的健壮度指标的光谱检测尚未见报道。

以春季育苗移栽期番茄苗为研究对象，测定了多个单项指标，利用数学分析的方法筛选出了代表性强，评价效果较好的两项指标，并建立了综合评价指数；对样品进行光谱检测，分别用全波段和特征波段光谱变量与秧苗评价值建立了定量分析模型，旨在为春季育苗移栽期穴盘苗健壮度的快速检测提供科学依据。

1 实验部分

1.1 材料

番茄穴盘育苗于2020年12月—2021年2月在河南洛阳诚研辣椒研究所温室大棚环境中培养，白天温度控制在20～25 ℃，夜间温度控制在10～15 ℃。选用的番茄品种为毛粉802，种子经消毒处理后，采用一孔一种的播种方法，将其播种于4个72孔穴盘中，穴盘育苗基质为包含泥炭、椰糠和珍珠岩的混合基质(比例为3∶1∶1)。番茄秧苗日历苗龄为45 d时，处于育苗移栽期，此时穴盘中有276株幼苗(缺苗12株)，对其进行各项指标的测定和光谱检测。对番茄叶片光谱反射率的采样使用海洋光学USB4000光纤光谱仪，其波长范围为200～1 100 nm，光谱间隔为0.21 nm，试验选择在晴朗无云或少云的天气进行，用OceanView软件对光谱数据进行采集。

1.2 方法

按照以下顺序采集所需数据：将番茄苗取出洗净并用滤纸擦干，用直尺测定株高；用游标卡尺测定茎粗；采用万分之一电子天平称量全株鲜质量；将光谱仪预热30分钟后采集光谱数据；每个活体样本由多个叶片组成；光谱仪探头垂直向下，距叶片2 cm左右；每次采集目标光谱前后进行参考板校正，每点反复测量3次取平均值作为该样本光谱测量结果。用分光光度法测定叶绿素a、叶绿素b和总叶绿素含量；用叶绿素仪测定叶片叶绿素相对含量SPAD；最后将整株装于信封袋内置于鼓风干燥箱105 ℃杀青30 min，80 ℃下烘至恒质量，并称量其全株干质量。

1.3 数据处理

试验数据采用SPSS 26.0进行分析处理，光谱预处理和特征变量的选择是基于MATLAB 2019b实现的，评价值的定量分析模型基于Python语言的TensorFlow框架实现，绘图工作在Origin 2019上完成。

2 影响秧苗健壮度的重要指标和评价方法

2.1 评价指标的分类和预处理

试验采集的各评价指标均为定量指标，其中株高为区间型指标，即它在某一范围内时，秧苗质量较佳，偏离这一范围不论是过长或是偏少都不利于秧苗质量。其他指标均为极大型指标，即这些指标没有明显的上下限，随着指标的增长与秧苗质量成正相关。

为了构建评价指标体系，便于后续分析，需要对各指标进行一致化和归一化处理。其中，先将区间型指标转化为极大型指标[式(1)]，然后将其他各极大型指标进行向量归一化处理[式(2)]，得到每个秧苗各单项指标的评价值。

M=max{a-min{xi}，max{xi}-b}

(1)

(2)

2.2 单项指标权重系数的确定

(3)

指标xi与其他指标的复相关系数Ri越大，则说明它们之间的共线性关系越强，重复信息越多，则该指标的权重也就应该越小。

(4)

(5)

由表1可知，干质量和总叶绿素的权重较大，即这两个指标所包含的信息量较多，可以结合起来反映春季育苗移栽期的番茄苗健壮程度。其他指标的权重指数较为接近且均明显低于前两项，可能是因为在育苗期间温室大棚的水分、温湿度、光照、养分等统一苗期管理中，由经验对传统的壮苗指标予以干预，如为防止徒长施加矮壮素等，使得它们差异较小，对健壮苗的评判结果贡献度低。

表1 春季育苗移栽期番茄苗单项指标权重系数

2.3 番茄苗健壮度的评价方法

根据上述各项指标评价值和权重的确定，每株番茄健壮度的评价值V可表示如式(6)

(6)

图1 春季育苗移栽期番茄苗健壮度评价值

作为对秧苗评价值V影响最大的两个因素：干质量和总叶绿素，若仅用这两项指标来反映春季育苗移栽期番茄苗健壮度，则该简化后的秧苗评价值Vs可表示为式(7)

(7)

将简化后的秧苗评价值Vs与评价值V进行对比分析，如图2所示。可以看出两者线性度高，决定系数R2=0.920，即简化后的秧苗评价值Vs可以很好的表征春季育苗移栽期番茄苗的健壮度。

图2 番茄简化评价值在评价值范围内的分布

2.4 番茄苗的品质分类

将样本简化后的秧苗评价值Vs作为分类依据，将番茄苗分为三种类型：优质苗、合格苗，劣质苗，对其进行聚类划分，同时，应考虑育苗移栽的实际情况，对其进行优化，以避免因标准过高而导致的资源浪费。分类结果如表2所示，分类样本情况如图3所示，其中图3(a)为所培育72穴穴盘苗的整体情况，图3(b)，(c)和(d)分别为基于该分类依据所筛选出的优质苗，合格苗和劣质苗。基于该依据的分类结果相对于传统经验，对健壮程度的划分更加精细。

表2 番茄苗的品质分类结果

图3 春季育苗移栽期番茄苗分类情况

3 番茄苗健壮度的光谱检测

3.1 不同品质穴盘苗的可见-近红外光谱图

在构建了春季育苗移栽期番茄穴盘苗的评价体系的基础上，为了获取其健壮度信息，可以发挥光谱的无损检测优势，用化学计量学的方法构建光谱数据与反映秧苗品质的两个重要指标及秧苗评价值Vs的定量分析模型，以实现质量鉴别。样本的原始光谱曲线如图4(a)所示，是典型的绿色植物光谱曲线，可以清晰的看出图像两端有较大噪声。将光谱信号两端噪声较大的波段截掉后，得到的光谱曲线如图4(b)所示。为了消除由于颗粒分布不均匀及颗粒大小不同产生的散射对光谱的影响，增强有用的光谱信息，采用多元散射校正(MSC)的预处理方法，得到的光谱曲线如图4(c)所示。

图4 春季育苗移栽期番茄苗的光谱

3.2 光谱特征的重要波长选择

利用竞争性自适应重加权算法(CARS)和无信息变量消除-连续投影算法(UVE-SPA)对番茄苗的光谱特征进行重要波长的选择，可以减少冗余的光谱特征信息, 便于构建高效的健壮苗检测模型，并提高后期数据分析的计算速率。

CARS是通过选择模型中回归系数绝对值大的波长，去掉权重小的波长，再经内部交互验证选出RMSECV值最低的子集，可有效的找到最优波长组合[8]。经过多次试验的结果如图5所示，得到最佳迭代次数为25次，并据此筛选出了58个光谱重要波长，作为简化后番茄苗评价值的判别依据。

图5 CARS算法挑选特征波长的过程

采用UVE算法对全波长下的2 604个光谱变量进行选择，UVE中产生的随机变量个数同样设置为2 604个，决定被选变量的阈值选择标准为随机变量稳定性最大值的99%，阈值外的波长变量将被保留作为特征波长[9]。经过UVE的变量选择，得到了240个波长，可以看出经UVE选择得到的特征波长数量仍较为庞大，因此采用SPA对其选择后的波长变量做进一步选择。验证集经过多元线性回归分析(MLR)，得到了最小的验证标准偏差(RMSEV)，其对应的变量即为所需的光谱重要波长。最终选择结果为104个特征波长。

通过CARS和UVE-SPA两种方式选择出的特征波长在全谱中的分布情况如图6和图7所示。可以看出，两种方法得出的结果在450～520，620～720和750～950 nm波段下分布较为类似，后者较前者多筛选出的特征波长大部分集中于530～610 nm波段。其中450～520，530～610和620～720 nm三个波段与组成秧苗评价值的叶绿素含量相关性很强，这与丁永军[10]等的研究结果吻合；750～950 nm波段与秧苗评价值中干质量相关性较强，这与王洋等人研究结果相似[11]：干物质在可见光波段作用不明显，在近红外-短波红外区域影响较大，干物质含量越高，叶片反射能力越弱。

图6 CARS挑选的特征波长在全波段的分布

图7 UVE-SPA挑选的特征波长在全波段的分布

3.3 样本集划分

采用SPXY算法进行样本集划分[12]，相较于传统的KS算法，它以光谱变量为x变量，秧苗评价值为y变量，利用两种变量同时计算样品间距离以保证最大程度表征样本分布，有效地覆盖多维向量空间，增加了样本间的差异性和代表性。最终以2∶1的比例将样本集划分为建模集和预测集，其中建模集样本有184个，预测集样本有92个，保证了训练集中的样本按照空间距离分布均匀。样本间距离表示如式(8)

(8)

把所有的样本都看作建模集候选样本, 依次从中挑选样本进建模集。首先选择距离最远的两个样本进入建模集，其后通过计算剩下的每一个样品到建模集内每一个已知样品的距离，找到拥有最大最小距离的待选样本放入建模集，以此类推，直到达到所要求的样本数目。样本集划分的结果见表3，可以看出建模集样本的秧苗评价值涵盖了预测集样本的秧苗评价值范围，且平均值和标准偏差均接近，表明样品集划分合理。

表3 样本集划分

3.4 建模方法与评估

由于秧苗评价值在光谱曲线上的响应会受多种因素影响，而简单的线性回归模型很难处理非线性、随机性等复杂的问题，因此在模型的选择上应考虑非线性模型。选择LS-SVM和CNN两种非线性模型，并通过比较分析选取最优组合。

最小二乘支持向量机(1east squares support vector machine，LS-SVM)是对SVM的改进，它能有效的处理回归问题，在解决小样本、非线性和高维模式识别等问题中优势显著[13]。其优势主要表现在将经典SVM中复杂的二次优化问题改为了解线性方程组的问题，降低了复杂度，从而大大加快计算速度，在LS-SVM算法模型中，通过选择合适核参数σ和惩罚系数γ，可以实现模型复杂度和模型准确度的平衡折中。本研究选择径向基函数(RBF)作为核函数，并用网格搜索和交互验证法自优化模型的σ和γ。

卷积神经网络(convolutional neural networks, CNN)是一类包含卷积计算且具有深度结构的前馈神经网络，其中U-Net网络模型因其结构优势应用广泛。它基于全卷积网络进行改进，不需要大量的样本和计算资源，就可以利用数据增强对一些比较少样本的数据进行训练[14-15]。基于U-Net网络进行改造，最终建立的模型结构如图8所示。

图8 基于U-Net模型的卷积神经网络结构

结构左侧部分为收缩路径，可视为有4个子模块的编码器，每个子模块有两个卷积核(核函数为ReLU，大小为1×3，填充为0，步长为1)组成的卷积层，用于特征提取，后加一个最大池化层(大小为1×2，步长为2)实现下采样，降低数据维度。除此之外，卷积过滤器的深度从64逐层增长到1 024，使得每一次降采样都会增加一倍的通道数。右侧为扩展路径，与收缩路径组成类似，可视为实现上采样的解码器，以恢复数据维度。特别的是，各模块完成一次反卷积后，就会将收缩路径中对应步骤的特征图进行修剪，使其数据尺寸能与反卷积的结果拼接，以完成特征融合。为了适应回归需求，将U-Net原网络中最后用于输出的卷积层(大小为1×1)替换成了两个全连接层，使其最终的输出为秧苗评价值。训练过程中，设置学习率为10-3，训练次数为1 000次。

将预处理后的光谱数据和提取特征波长后的光谱数据分别作为模型的输入，且所建立光谱模型优劣采用以下参数进行评估：建模和预测集的相关系数(r)，建模均方根误差(root mean square error for calibration，RMSEC)以及预测均方根误差(root mean square error for prediction，RMSEP)。所建模型的相关系数越高，均方根误差越低，说明模型效果越好。同时，RMSEC和RMSEP的绝对值的差越小，表明所建立的模型的稳定性越好，鲁棒性越强。所得结果如表4所示。

表4 不同光谱变量的各模型效果对比

由表4可以看出，基于全波段建立的LS-SVM和CNN模型，建模集和预测集的结果差于其他经CARS和UVE-SPA预处理后波段所建模型，可能是由于太多无用的波段信息对建模产生了干扰，从而降低了最终回归的准确率。CNN模型整体比LS-SVM模型的建模效果好，说明训练的光谱信息数据量较大时，神经网络的非线性回归效果更好。经CARS筛选出的特征波段数比UVE-SPA的波段数少46个，但在CNN模型的回归结果中，基于UVE-SPA预处理的建模集和预测集，r，RMSEC, RMSEP的表现效果均好于CARS的预处理结果，说明，CARS相对于UVE-SPA在简化光谱变量输入的同时，过滤了一部分重要波段信息，导致模型精度下降。

上述分析可知，对于采集的春季移栽期番茄穴盘苗可见光-近红外光谱信息，采用UVE-SPA-CNN模型对光谱数据和秧苗评价值的回归分析效果最好，该模型既保留了原始光谱大量的有用信息，又将输入变量由2 604个降为104个波长信息，建模速度快且精度高。其中建模集和的相关系数rc和建模均方根误差RMSEC分别为0.988和0.085，预测集的相关系数rp和预测均方根误差RMSEP分别为0.946和0.025。

4 结论

以春季育苗移栽期番茄穴盘苗为研究对象，采集了形态数据和光谱信息，用叶绿素和干质量两种因素建立了能表征秧苗健壮度的定量模型—秧苗评价值Vs，并利用CARS和UVE-SPA方法对光谱数据进行降维, 选取特征波长, 在此基础上，对比分析了LS-SVM和CNN两种不同非线性回归模型对秧苗评价值的反演精度, 得出如下结论:

(1)简化后的秧苗评价值Vs与评价值V的相关系数r高达0.920，表明简化后的秧苗评价值Vs可以很好的表征春季育苗移栽期番茄苗的健壮度。

(2)CARS相对于UVE-SPA能够提取更少的特征波数，但同时也丧失了更多的有用波段，导致后续回归效果变差。

(3)CNN模型的反演精度高于LS-SVM，且整体上UVE-SPA-CNN模型的效果最好，其建模集和预测集的相关系数r分别为0.988和0.946，均方根误差RMSE分别为0.037和0.025。可为直接利用光谱数据获取融合了多种因素的番茄秧苗评价值，从而判别其健壮度提供科学依据。