基于深度强化学习的耕作层土壤水分、温度预测

2023-01-08刘会丹万雪芬蔡婷婷

华南农业大学学报 2023年1期

刘会丹，万雪芬，崔剑，蔡婷婷，杨义

(1 东华大学信息科学与技术学院, 上海 201620； 2 河北省物联网监控工程技术研究中心, 河北廊坊 065201；3 华北科技学院计算机学院, 河北廊坊 065201； 4 北京航空航天大学网络空间安全学院, 北京 100083)

中国是一个农业大国，农业人口超过7亿人，耕地面积达到121亿hm2，在全球耕地总面积中占8%左右。在农作物耕作培育过程中，土壤是不可忽视的环境因素之一[1]。土壤耕作层作为农作物根系生存的重要介质，包含着农作物生长所需要的养分与水分。农作物根系土壤环境是否适宜其生长，对农作物优质、高效栽培具有重要意义[2]。农业土壤由浅入深一般由耕作层、犁底层、心土层和底土层等层位组成[3]。耕作层指经长期耕种已经熟化的表土层，深度为15～20 cm，耕作层易受周围环境气候条件的影响，该层往往有机质含量高，养分丰富，土体疏松，农作物的根系主要分布在耕作层中[4]。在农业种植中，农作物的根系主要依赖耕作层的土壤环境而很少分布在其他层位，因此需要对土壤耕作层进行更多地关注与研究。在土壤的众多参数中，土壤温度与水分这2个参数具有重要作用[5]。土壤水分和温度是保证植物生长的关键，不适宜的土壤水分、温度不利于田间耕作和播种，保持适宜的土壤水分、温度对农作物优质栽培具有重要意义[6]。因此对耕作层土壤水分及温度进行的高质量时序预测对科学研究和农业生产实际都有重要意义。有研究表明，0～20 cm土层的地温与空气温度呈线性关系，同时，土壤深度越深，土壤温度与周围环境空气温度的相关性就越滞后[7-8]。Han等[9]研究发现，土壤浅层温度与周围环境温度的关系对应一种正弦曲线。近年来随着计算机运算能力的提升，国内外许多学者开始采用机器学习方法对土壤水分、温度预测进行研究。薛晓萍等[10]利用支持向量机方法建立土壤水分预测模型，构建的模型预测精度较高，但利用传统方法预测的数据具有滞后性且较难找到最优参数。Wu等[11]采用人工神经网络(Artificial neural network，ANN)较为精确地估算了在10 cm深度下的月平均土壤温度数据，但该方法仅能预测月维度的土壤温度，难以适用于日常的农业生产中。Jung等[12]基于3种深度学习的神经网络模型，预测了温室中温度、湿度和CO2的环境变化，3种深度学习的神经网络模型依次为ANN、具有外源输入的非线性自回归网络(Nonlinear autoregressive network with exogenous inputs，NARX)以及长短期记忆 (Long short-term memory，LSTM)，试验发现LSTM的总体精度最高。

传统的机器学习模型通常对样本的质量和数量有更多的限制，需要在数据预处理和特征提取方面付出更多的努力。另外，由于不同地区的土壤差异很大，需要更具普适性的土壤预测方法[13]。近年来，物联网技术为智慧农业的发展提供了重要的推动力，如何利用物联网获得的数据进行数据分析是智慧农业领域需要解决的重要问题之一。土壤水分、温度具有明显的时空特征，土壤耕作层深度较浅，易受到地表气温影响导致水分蒸腾。当气温较高时，其水分蒸发速率较快导致土壤水分下降；当气温较低时，水分不易蒸腾就容易保留下来。土壤耕作层距离地表较近，空气温度也会对土壤耕作层温度产生影响。因此可以利用环境空气温、湿度与土壤水分、温度之间的关系构建预测模型，预测未来一段时间的土壤水分、温度。基于该预测方法决策者可以依靠低成本的数据更好地了解土壤耕作层水分与温度动态，以指导实践。

1 材料与方法

对土壤耕作层水分、温度进行预测，需要先了解前段时间的土壤水分、温度数据，然后通过土壤近表面环境空气温、湿度和土壤水分、温度的历史相互关系来预测未来时间的土壤水分温度。使用基于长短期记忆结构的数据分析与预测策略来实现由土壤近表面环境空气温、湿度到土壤水分、温度的分析预测。

1.1 用于组合预测的深度学习基模型

LSTM从循环神经网络(Recurrent neural network，RNN)改进而来[14]。LSTM由输入门、输出门、遗忘门组成循环模块，提高网络保留长期信息的能力并有效解决梯度爆炸与消失问题[15]。LSTM中引入3个门限来提升长时信息记忆能力，并过滤掉不重要的信息[16]。

门限循环单元 (Gated recurrent unit, GRU)由Cho等[17]提出，由LSTM改进而来。LSTM神经网络模型较为复杂，参数较多，存在训练时间较长的问题。为了简化结构，GRU将遗忘门和输入门合并为更新门，同时对细胞状态进行融合[18]。

双向长短期记忆网络(Bi-directional long short-term memory，Bi-LSTM)包含了前向与后向LSTM。输入层数据经过两个方向计算，最后结合隐藏状态作为下一层输入。Bi-LSTM同时拥有前向传播和反向传播，能够提取序列的双向特征，在一定程度上增加抓取时序信息的能力。但是模型的参数也相应增加，导致模型训练需要更多的时间[19-20]。

1.2 深度强化学习理论

强化学习是通过智能体与环境间的交互学习最优策略的过程[21]，系统框图如图1所示，智能体做出动作后，由环境反馈奖励，同时改变智能体与环境的状态。在强化学习中，智能体以获得最大回报为目标来执行动作[22]。

图1 强化学习系统框图Fig. 1 Block diagram of reinforcement learning system

马尔可夫决策过程可用于强化学习建模，通常用四元组＜S, A, P, R>表示。其中 S 为状态空间，A为动作空间，P为状态转移函数，R为奖励函数。策略用表示。智能体在执行动作后的回报具有延迟性，只通过立即奖励来评价动作优劣并不准确。强化学习中用值函数进行评价，包括状态值函数和动作-状态值函数定义如式(1)所示，

状态-动作值函数又称Q值函数，定义如式(2)所示，

用贝尔曼方程表示状态值函数如式(3)所示，

状态值函数可由回报奖励和未来时刻的状态值函数计算得到。

在许多任务中强化学习算法的表现并不佳，主要因为强化学习算法存在2个缺点：

1)采用Q值表来记录不同状态下执行各动作的回报，状态动作空间维度较高时会产生维数灾难，导致构建Q值表所需的内存空间极大。

2)在首次执行某状态动作组合时得到的Q值可能并不准确，需要多次访问，以完善相应Q值。在状态空间或动作空间维度较高时，找到最优策略需要较大的时间复杂度。

深度 Q 学习 (Deep Q network，DQN)针对强化学习存在的问题做出了改进，是深度强化学习中的经典算法[23]。DQN在加入神经网络基础上的改进主要包括以下2个方面：

1)采用经验回放机制，该机制构建了一个经验池。智能体每次执行动作后，就将样本数据存储到经验池中。每次训练时从经验池中进行随机抽样，清除观测序列的相关性。

2) DQN中使用了当前值网络与目标值网络。目标值网络用于辅助计算Q值，每隔一定步长更新当前值网络到目标值网络[24]。

2 基于深度强化学习的水分、温度组合预测模型

2.1 DQN-L-G-B组合模型

图2 组合预测模型结构图Fig. 2 Structure diagram of combination forecasting model

为了提高LSTM、GRU与Bi-LSTM模型的组合预测结果，引入DQN深度强化学习算法进行加权求和，得到优化后的预测值。基于马尔科夫决策过程，对状态空间S、动作空间A、奖励函数R建模如下：

1)状态空间S。状态空间矩阵S包含各基模型的预测结果权重，如式(7)所示，

式中，w1,w2,w3分别表示LSTM、GRU与Bi-LSTM这3个模型的预测结果权重。初始的状态s0设为 [1/3,1/3,1/3]；

2)动作空间A。动作空间矩阵A包含各基模型的预测结果权重增加与减少的动作，建立3行2列的动作矩阵，如式(8)所示，

3)奖励函数R。奖励函数的设置是深度强化学习中的重要问题，每次执行完动作后获得的即刻奖励函数R设置如式(9)与式(10)所示。

DQN-L-G-B算法中采用探索策略为ε-greedy策略，算法步骤如下：

2)对于每一次权重优化任务，初始化环境状态s=s0，对于每一次组合模型的预测结果权重改变动作；

6)满足任务训练次数要求后。输出最优策略与优化后的权重矩阵 [w1,w2,w3]。

3 试验结果与分析

3.1 数据集获取

为了获取用于构建深度学习模型的数据集，在土壤耕作层水分、温度预测的背景下，基于NBIoT与云平台构建可以长周期等间隔采集数据的物联网数据采集系统。系统由现场终端节点与云端数据管理平台组成。现场终端节点获得各项监测参数的观测值，并通过NB-IoT数据通道送往构建在阿里云上的云端数据管理平台。云端数据管理平台结合服务器MySQL数据库实现NB-IoT数据接口、数据存储、数据交互等管理功能。现场终端节点主板和终端节点如图3所示。试验表明，在测试期间数据包传输成功率为99.95%，该数据采集系统具有高可用性与稳定性，可以实现长周期等间隔地采集时间序列。

图3 现场终端节点主板(a)和试验中的现场终端节点(b)Fig. 3 Field terminal node main board (a) and field terminal node in the experiment (b)

数据采集系统搭建完毕后，将终端节点部署于试验基地中，进行长周期的数据采集试验。试验基地分别位于江苏省连云港市赣榆区和河南省开封市尉氏县。赣榆区属于暖温带海洋性季风气候，靠近东部沿海，较为湿润，年均降水量约为900 mL。开封市尉氏县属于温带季风气候，地处中原地区，相较于赣榆区较为干燥，年均降水量约为600 mL。分别选取赣榆地区的壤土和尉氏县的砂土作为两地区的试验土壤。

试验中壤土种植箱中混种韭菜与矮株番茄，砂土种植箱中单种花生，如图4所示，在试验期间作物根系深度未超过20 cm。空气温湿度传感器被布设于种植箱上方50 cm处(处于土壤水分蒸发的影响范围内)；土壤传感器探针插入土深15 cm处。种植箱被置于自然环境中(无大棚薄膜等遮蔽)，日照、降雨、环境空气运动、灌溉等自然及人为活动都将对试验环境中的土壤水分温度等造成影响。

图4 试验中用到的2种土壤类型Fig. 4 Two soil types used in the experiment

集中管理数据的云端平台部署于阿里云ECS服务器中。设置终端节点的数据采集周期为5 min/次，整个测试周期为2020年11月1日至2021年9月18日。在这一段时间的长周期测试过程中，终端节点向云服务器采集发送的数据包数目为92 448个，云端服务器共接收到有效数据包数目为92 402个，可以满足日常采集需求。

3.2 模型训练

使用数据采集系统在2020年11月1日0:00时至2021年9月18日24:00时采集的数据作为数据集，主要包括空气温度、空气湿度、土壤温度与土壤水分等农作物栽培生态环境数据。其中90%作为训练集，10%作为测试集。利用训练集对LSTM、GRU、Bi-LSTM等基模型以及DQN-L-GB组合模型进行训练，再利用测试集对各模型的预测结果进行比较与分析。

深度学习预测模型的输入时间步长为5，输入维度为4，维度分别是空气温度、空气湿度、土壤温度和土壤水分。每个时间步长的间隔为30 min。模型训练试验使用的操作系统为Windows 10 64位，处理器型号为 Intel Core i5-9400F CPU 2.90 GHz，内存为16 GB，编程语言采用Python3.6，深度学习框架采用Tensorflow2.1。

试验中构建的LSTM、GRU和Bi-LSTM模型都包括2个网络层，分别有32和16个神经元，均使用Tanh作为激活函数，Huber loss作为损失函数，Adam作为优化算法，迭代次数均设置为100次。

DQN-L-G-B中的DQN神经网络模型采用2个全连接神经网络(Densely-connected neural network，DNN)，分别有128和64个神经元，训练超参数设置学习率为10-4，优化器为Adam,奖励折扣因子为0.9，激活函数为ReLU，权重变更步长为10-5，经验池容量为 3 200，最小更新批次为 32，目标值网络更新步长为200，Huber loss超参数为1，训练任务总次数为10 000，探索概率为0.1。

3.3 评价指标

用来表示预测精度的评价指标较多，为了从多个角度比较模型的预测效果。本文选取以下4个指标作为评价指标：

1) 均方根误差 (Root mean square error，RMSE)。RMSE可以测量误差的平均大小，对于预测值中的异常值较为敏感，RMSE越小表示预测结果越好。RMSE计算如式(11)所示，

2)平均绝对误差 (Mean absolute error，MAE)。MAE是一般形式的误差平均值，MAE越小表示预测结果越精准，MAE计算如式(12)所示：

3)平均百分比误差 (Mean absolute percentage error，MAPE)。MAPE 计算如式 (13)所示，

相比MAE，MAPE增加了误差值与真实值相比的步骤，MAPE越小表示误差相对于真实值越小，模型预测结果越好。

4)决定系数 (R-Square，R2)。R2计算如式(14)所示，

3.4 试验结果分析

3.4.1 耕作层土壤温度预测结果分析对部署在不同土壤类型的2个终端节点处的耕作层土壤水分、温度进行比较分析，所使用的预测模型部署条件相同。DQN-L-G-B模型经过训练后得到优化后壤土耕作层温度预测权重w1、w2和w3分别为0.330 773、0.331 271和 0.332 472。砂土耕作层温度预测权重分别为 0.332 062、0.331 443和 0.327 623。为了便于比较分析DQN-L-G-B模型优化的有效性，在模型结果分析中引入了加权平均的L-G-B模型，其基模型权重 w1、w2、w3均为 1/3。

LSTM、GRU、Bi-LSTM、L-G-B以及DQN-LG-B模型在土壤耕作层温度测试集上的RMSE、MAE、MAPE以及R2等评价指标的表现对比如表1所示。在壤土与砂土的土壤耕作层中，DQN-L-GB的各评价指标均优于LSTM、GRU、Bi-LSTM等基模型以及未引入DQN算法的L-G-B模型。

表1 2种土壤类型的土壤耕作层温度各模型的试验结果Table 1 Experimental results of various models of soil tillage layer temperature in two soil types

在壤土耕作层温度预测中，相较于Bi-LSTM模型，DQN-L-G-B的RMSE降低了6.3%，MAE降低了10.1%，MAPE降低了11.1%，R2提高了1.1%。可以看到，与最优的基模型相比，DQN-L-G-B模型在RMSE、MAE以及MAPE等性能指标上均有较好的优化结果，对于R2也有一定程度的提升。DQN-L-G-B模型与L-G-B模型相比，DQNL-G-B模型的RMSE降低了4%，MAE降低了7%，MAPE降低了7.7%，R2提升了0.7%。在砂土耕作层温度预测中，相较于Bi-LSTM模型，DQNL-G-B的RMSE降低了5.9%，MAE降低了11.4%，MAPE降低了12.8%，R2提高了1.2%。DQN-L-G-B模型与L-G-B模型相比，在RMSE降低了6.9%，MAE降低了10.1%，MAPE降低了11.5%，R2提升了1.4%。可以看到，在2个不同位置耕作层土壤温度预测中，DQN-L-G-B模型都有着不错的表现。

在LSTM、GRU、Bi-LSTM这3种基模型中，Bi-LSTM表现最优，在以下的试验结果分析中，引入基模型中表现最好的Bi-LSTM与其他2种组合模型进行对比，选取测试集中的最后3 d (2021年9月16—18日)的样本点进行拟合曲线绘制，结果如图5所示。在图5中，可以看到DQN-L-GB模型预测结果的拟合曲线更贴近于真实值曲线。

图5 不同土壤类型上的3种预测模型耕作层土壤温度的预测值与真实值Fig. 5 Predicted and true values of three prediction models for soil temperature of the cultivated layer in different soil types

3.4.2 耕作层土壤水分预测结果分析壤土耕作层水分预测权重w1、w2和w3分别为0.332 086、0.333 553和 0.333 367；砂土耕作层水分预测权重分别为 0.333 277、0.333 279和 0.330 464。LSTM、GRU、Bi-LSTM、L-G-B以及DQN-L-G-B模型在土壤耕作层水分测试集上的RMSE、MAE、MAPE以及R2等评价指标的表现对比如表2所示。

表2 土壤耕作层水分预测各模型试验结果Table 2 Experimental results of various models for soil moisture prediction in cultivated layer

在壤土耕作层土壤水分预测中，相较于Bi-LSTM模型，DQN-L-G-B模型的RMSE降低了7.9%，MAE降低了21.0%，MAPE降低了12.8%，R2提高了0.1%。可以看到，与最优的基模型相比，DQN-L-G-B模型在RMSE、MAE以及MAPE等性能指标上均有较好的优化结果，R2也略微提升。DQN-L-G-B模型与L-G-B模型相比，其RMSE降低了6.1%，MAE降低了15.1%，MAPE降低了30.4%，R2保持一致。

在砂土耕作层水分预测中，相较于Bi-LSTM模型，DQN-L-G-B模型的RMSE降低了5.2%，MAE降低了23.6%，MAPE降低了12.9%，R2提高了0.1%。DQN-L-G-B模型与L-G-B模型相比，其RMSE降低了3.7%，MAE降低了16.0%，MAPE降低了30.4%，R2提升了0.1%。可以看到，在2种类型的耕作层土壤水分预测中，DQN-L-G-B模型预测精度都有不错的表现。

选取测试集中的最后 3 d (2021年 9月16—18日)的样本点进行拟合曲线绘制，选取基模型中表现最好的Bi-LSTM与其他2种组合模型进行对比，结果如图6所示，可以看到，DQNL-G-B模型预测结果的拟合曲线更贴近于真实值曲线。

图6 不同土壤类型3种预测模型耕作层土壤水分的预测值与真实值Fig. 6 Predicted and true values of three prediction models for soil moisture of the cultivated layer in different soil types

4 结论

本文基于NB-IoT与云平台构建了物联网数据采集系统，实现环境土壤数据的可靠收集以用于深度学习模型训练。测试结果表明，通过该数据系统可以稳定可靠地获得用于日常预测及深度学习训练的核心数据集。

本文针对土壤耕作层水分与温度预测问题，基于深度强化学习方法研究了DQN-L-G-B组合模型。最后试验结果表明，在土壤耕作层水分与温度预测问题中，DQN-L-G-B组合模型可以更为精准地预测未来时刻的土壤水分与温度。在未来的研究中，可以进一步考虑预测得到的未来时刻土壤水分温度数据后的应用场景。如预测得到30 min后的耕作层土壤水分过低时，可以控制农业物联网设备进行浇水等操作。