APP下载

基于数据挖掘的灌溉渠道运行状况健康度检测研究

2020-11-28赵钟声许景辉王一琛

灌溉排水学报 2020年11期
关键词:干渠损失率准确率

赵钟声,许景辉,*,王 雷,王一琛

(1.西北农林科技大学 旱区农业水土工程教育部重点实验室,陕西 杨凌 712100; 2.西北农林科技大学 水利与建筑工程学院,陕西 杨凌 712100; 3.西北农林科技大学 机械与电子工程学院,陕西 杨凌 712100)

0 引 言

灌区渠道工程主要包括总干、干、支、斗、农渠及其相关输挡水建筑物[1],各渠道运行健康状况跟灌区水资源利用效率密切相关[2]。传统渠系渗漏等健康状态判别主要通过人工巡视的方法进行[3],此方法不但费时费力,无法判明水下建筑物状况,还因巡检人员经验不同而造成误判或漏判,导致灌区水资源严重浪费。当前现代化灌区已基本实现渠道流量、流速、水位变化等数据自动采集记录[4-6]。【研究意义】但灌区仅对周期性水量进行统计[7],如果能通过数据挖掘等先进技术,揭示渠系用水规律,发现并提取渠系运行健康评测指标,这将对提高水资源利用效率以及灌区生产、管理起到积极作用并产生重要意义。

数据挖掘是指根据特定业务目标从海量数据中提取潜在有效且可以理解的、模式的高级过程[8-10]。【研究进展】常占峰[11]采用Geodatabase 地理数据库技术对特定灌区水文数据进行组织研究,提出昌马灌区水文数据组织建模思路框架。宋海瑞等[12]基于都江堰灌区数据中心建立了相应数据挖掘模型。赵丽华[13]对灌区渠系数据中水情监测判别方法进行了相关探讨研究。Moavenshahidi 等[14]利用灌区自动通道控制的水位数据研发了一种计算机模型,用于估算灌区不同通道河段的渗流率。李钊等[15]通过数据挖掘并引进机器学习思想,提出一种渠道糙率直接反演方法。【切入点】以上研究都是通过数据挖掘对灌区水文水情、规划设计、渠道糙率等的探讨,而对数据挖掘技术在检测灌区渠系建筑物运行健康方面研究较少。

本文基于陕西关中地区某灌区总干、干、支、斗渠道2014 年10 月—2018 年10 月流量数据以及灌区渠道输水灌溉发生运行不良状况的各项异常终端报警信息,提取渠道运行不良关键特征指标。【拟解决的关键问题】通过LM(Levenberg Marquard)神经网络构建灌区渠道运行健康检测模型,并与传统BP(Back-ProPagation Network)神经网络、CART(Classification and Regression Tree)决策树识别模型进行对比,探究LM 网络模型在渠系运行健康识别方面效果,为灌区合理判别渠道运行健康状态提供理论研究与技术支持。

1 材料与方法

1.1 研究区概况

选取灌区位于陕西关中地区,类型为大型(Ⅱ)灌区,主要种植作物为玉米、棉花、冬小麦等。2010年灌区进行了现代化建设改造,在灌区总干、干、支、斗各级渠道渠首设水量测控装置,其数据以1 h 为间期回传管理中心。在总干、干、支渠道区段内设水位、流速、淤积度监测报警装置。

灌区渠系分布主要为:3 个总干渠(总南干渠(S)、总中干渠(M)、总北干渠(N));7 个干渠(南干渠Ⅰ(S-A)、南干渠Ⅱ(S-B)),中干渠Ⅰ(M-A)、中干渠Ⅱ(M-B)、中干渠Ⅲ(M-C),北干渠Ⅰ(N-A)、北干渠Ⅱ(N-B));40 个支渠(例:S-A1、S-B1等)以及若干斗渠等。

1.2 数据抽取与探索分析

与灌区渠道运行健康状态相关的原始数据主要为实时流量,水位、流速超警戒或低警戒报警数据、淤积度报警数据以及渠道发生运行不良记录数据等。本模型所用数据为2014 年10 月—2018 年10 月灌区内总干、干、支渠道运行不良相关数据以及主要灌溉时期内部分运行良好的总干、干、支、斗渠道数据,并应用周期性分析方法对流量数据进行数据探索分析。

如图1 所示,当渠道运行健康时,上级渠道渠首引水平均流量减去运行正常下级各渠道渠首引水平均流量总和在一定范围内比较平稳,波动不大;而当渠道运行不健康时,非正常运行渠道上,其上级渠道渠首引水平均流量减去运行不正常下级各渠道渠首引水平均流量总和的差值随时间变大,而后在一定波动范围趋于稳定。

图1 渠道运行正常与非正常时流量趋势变化对比图 Fig.1 Comparison of traffic trends during normal and abnormal channel operation

1.3 特征指标提取

从数据库得到的渠道流量数据虽在一定程度上能反应出渠道运行不健康规律特征,但要作为构建模型专家样本输入项,在特征表现上不够明显。本文基于数据变换,得到新的特征评价指标来反映渠道运行健康状况特征规律。

渠道运行状况特征指标评价体系主要为:

1)单位时间流量损失率增长趋势指标

假设在灌水周期几天或几周内灌区渠道沿程水量损失(水分蒸发、渠道渗漏等)随外界变化波动不大,q损定值。对运行状况良好渠道有q进=q出+q沿损;当渠道运行不良,发生事故造成水量损失q损时,有q进= q出+q沿损+q损。

同一个渠道同一时间段内单位时间流量损失率为wi=(q损/q进)×100%。若wi增大,说明单位时间流量损失占q进比重越来越大。对同一个渠道来说,在q损不变情况下,表明渠道有其他水量损失,说明渠道运行出现漏水等不健康状况。

当渠道运行不良时,在短时间内其单位流量损失率急剧增加,而后趋于平缓。但由于渠道单位时间流量损失率存在波动,单纯以前一个单位时间流量损失率与后一流量损失率相比误差过大。通过对该灌区渠道流量损失率误差数据分析发现,当2 个流量损失率误差大于0.9%以上时,渠道流量损失会产生较大变化。本研究考虑后一个单位时间流量损失率比前一个损失率的增长率是否大于1%。若增长率大于1%,则渠道运行状况可判为不健康。

设在一个统计周期内单位时间流量损失率统计为:

2)输水量损失增长趋势指标

同单位时间流量损失率增长趋势指标假设一样,w沿损为定值。则在统计周期单位时间步长内渠道进水量w进、出水量w出和输水损失ki关系式为ki=w进-w出-w损,其中i 为第几单位时间步长序号,i=1、2、3、4、…m。

3)测控告警类指标

与灌区渠道输水运行非健康相关报警主要有渠道水位超警戒线、低警戒线,流速过大、过小报警以及渠道淤泥度监测报警等,本研究以计算发生与灌区渠道输水灌溉期间运行非健康相关报警次数总和为测控告警类指标。

1.4 构建专家样本

对2014 年10 月—2018 年10 月该灌区内运行非健康渠道以及灌水期内部分运行良好渠道的流量、告警数据和该渠道在统计步长周期内运行是否健康标志,按渠道运行状况特征评价指标进行处理并选取其中915 个样本数据,得到专家样本数据库。

表1 专家样本数据示例 Table 1 The expert sample data example

在构建专家样本数据中,对总干渠、干渠以1 h为1 个统计周期,其中单位时间流量步长以5 min 为1 个时间段计,单位时间输水量步长以10 min 为1 个时间段计;对支渠以2 h 为1 个统计周期,单位时间流量步长以10 min 为1 个时间段计,单位时间输水量步长以20 min 为1 个时间段计。

1.5 模型构建

灌区渠道运行是否健康的识别可通过构建分类预测模型来实现。本文选用LM 神经网络模型构建灌区渠道运行健康状况识别,并与传统BP网络和CART决策树模型进行对比,以评价LM 神经网络模型对渠道运行是否健康识别的适应性。3 种模型中输入项分别为“单位流量损失率增长趋势指标”、“输水量损失率增长趋势指标”、“测控告警类指标”,输出项为是否健康标志“1”或“2”(“1”代表渠道在统计周期内运行状况正常,“2”表示不正常)。

采用信赖域算法模拟目标函数f(x)的二次模型,计算式为:

式中:s 为自变量;gTk为梯度;Gk为H 矩阵;hk为第k 次迭代的信赖域上界,其范数没有指定。

高斯-牛顿公式、牛顿数学公式、LM 算法分别为:

式中:g=JTf,u≥0。当u=0 时,LM 算法退化为高斯牛顿法;当u 很大时,LM 算法变为:

LM 算法重点是确定u 值,引入一评价量δ,计算式为:

δ 描述使用L 的下降量对F 下降量的近似程度。若δ 较大,说明近似效果较好,u 可以继续减小使LM更接近于高斯-牛顿法;若δ较小,则近似效果较差,因此可以增大u 使得LM 更接近梯度法[17]。在LM 算法中迭代结束条件只要满足以下3 条之一即可:①下降梯度g 小于某一设定阀值;②前后2 次x 的差小于某一阀值;③达到最大迭代次数kmax。

本模型迭代结束条件为设定达到最大迭代次数kmax=1 000,同时依据样本数据输入项建立LM 神经网络模型设定输入节点为3 个、隐层节点数12、输出节点2 个,显示间隔次数为25、目标误差为0、最大校验失败次数为7、最大误差梯度1e-7,初始u 为0.001,增长比率为10、减少比率为0.1、最大值为1010。

2 结果与分析

2.1 模型分析与评价

构建模型时将915个专家样本随机抽取83%作为训练样本,17%为测试样本。对3 个模型均重复训练,取最优分类结果。

研究发现,759 个训练样本分类中3 个模型综合最优分类准确率几乎相差不大,都达到98%以上。其中,对运行正常渠道分类,3 个模型准确率均高于99%,LM 神经网络模型的准确率最高,BP 神经网络模型与CART 决策树模型准确率相等;误判比例均小于0.5%。对运行不正常渠道分类,3 个模型准确率都在90%以上,BP 神经网络模型与LM 神经网络模型相等并高于CART 决策树模型;误判比例均小于1.0%。3 种模型混淆矩阵结果如图2 所示(图中运行正常渠道标志为类“1”,运行不正常渠道标志为类“2”)。

图2 3 种模型混淆矩阵 Fig.2 Confusion matrix of three models training data classification results

对比156 个测试样本输出类与实际类发现,3 个模型综合预测分类准确率都在94%以上。其中,BP神经网络模型与LM 神经网络模型的分类综合准确率均为96.2%,高于CART 决策树模型。对运行正常渠道分类,3 个模型准确率均为100%;对运行不正常渠道分类,BP 神经网络模型与LM 神经网络模型准确率同为76%,高于CART 决策树模型。3 个模型测试输出类与实际类对比分析结果如表2 所示。

表2 3 个模型测试输出类与实际类对比 Table 2 The output and actual class proportion results of three models

图3 3 种模型测试样本分类ROC 曲线对比 Fig.3 The comparison of ROC curves of three model test samples

为进一步评估模型分类性能,本文同时用156 个测试样本对3 个模型进行ROC(Receiver operating characteristic curve)曲线评估。3 个模型测试ROC 曲线如图3 所示。一个优秀分类模型所对应ROC 曲线应是尽可能靠近左上角完美曲线。通过图3 比较发现,LM 神经网络模型比传统BP 网络、CART 决策树模型表现更优。LM 神经网络模型中运行正常渠道分类准确度折线与运行不正常渠道预测分类准确度折线下的面积更大,说明LM 神经网络模型分类性能更优,可实际应用于渠道运行健康状况识别检测。

2.2 实际应用

灌区渠道运行状况识别,在实际生产中主要是对运行状况不健康渠道进行判别。为探究LM 神经网络模型在实际应用中的适应性,选取该灌区2018 年12月—2019 年7 月灌水周期内总北干渠(N)、中干渠Ⅱ (M-B)、北干渠Ⅰ(N-A)、南干渠Ⅱ(S-B)以及支渠(N-A1、N-A3、N-A5、N-A6、M-B1、M-B2、M-B4、M-B6、S-B1、S-B4、S-B6、S-A1、S-A3、M-C3、M-C5、N-B5、N-B3、S-A4、M-C1)流量数据和终端报警数据。通过Matlab 编程对原始数据预处理并提取相应特征指标,得到模型输入项数据实现对灌区渠道运行不健康状况识别检测,结果见表3。

分析表3 可知,LM 神经网络模型正确识别出在统计灌水周期内该灌区运行不健康渠道共21次中的17次,错误判断2 次,漏判2 次,准确率为80.95%;其中对3 条干渠判断中1 个漏判,1 个错判。进一步分析发现,由于干渠中流量数据较大并且对干渠本研究以1 h 为统计周期,其统计时间周期较长,造成了模型对干渠运行健康状况识别不够敏感。本次统计灌水周期内总北干渠(N)无发生渠道运行不正常状况。对表3 总体分析来看,LM 神经网络模型对该灌区渠道运行不正常识别准确率在80%以上,达到实际应用要求。

表3 模型识别结果与实际稽查结果比较 Table 3 The comparison of model recognition results with actual audit results

3 讨 论

灌区渠道运行检测一直是灌区生产管理中的重点与难点[18],对其运行健康状况的检测当前基本上采用传统的人工检测方法[19],而基于数据挖掘技术以及神经网络分析方法对灌区渠道输水健康状况检测目前鲜有研究。本文通过对特定灌区流量数据以及各项异常终端报警信息数据分析与处理,提取出渠道运行状况特征指标并构建专家样本数据,通过模型分类可以良好地反映出渠系运行健康状况。研究结果与刘恒[20]基于神经网络模型对洪水分类预测准确度相似。应用ROC 曲线评估三模型分类准确度,发现LM网络模型的分类准确度折线均比传统BP 网络[21]、CART 决策树模型更靠近左上角,研究结果与赵文仓等[22]基于LM 算法对用户窃漏电行为预测结论基本一致。说明LM 神经网络模型最优,可以应用于实际灌区渠道运行健康状况检测识别。

4 结 论

本文构建的LM 神经网络模型与传统CART 决策树模型、BP 网络模型相比,对灌区灌溉渠道运行状况健康识别准确率表现更优,对759 个训练样本与156个测试样本的综合识别准确率分别为98.6%、96.2%,并且测试样本中ROC 曲线更靠左上角。在实际应用中,LM 神经网络模型对该灌区统计周期内运行不正常渠道正确识别率达到80%以上,满足实际应用要求。

猜你喜欢

干渠损失率准确率
浅谈景电干渠梯形土渠改造措施及质量控制
湿法炼锌除铝技术的研究与实践
城市绿道景观设计策略研究——以昆明市盘龙区东干渠为例
农业农村部印发《意见》提出到2025年农产品加工环节损失率降到5%以下
不同油菜品种机收损失率及其与产量性状的相关性
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
南干渠儿童活动空间