污水处理软测量技术研究进展

2020-04-17杨吉祥

净水技术 2020年4期

杨吉祥

(中国科学院重庆绿色智能技术研究院，重庆 400714)

污水处理过程中需要检测大量的水质参数。这些参数用于监测反应器的运行状态和出水水质，并指导反应器的运行。人工检测水质参数的方式不能及时地提供反应器的水质信息。在线仪器检测水质参数的方式虽然可以避免人工检测的弊端，但是在线检测化学需氧量等指标的仪器价格较为昂贵，维护成本也高。因此，在线测量仪器难以在小型污水处理厂、农村污水处理设施中普及。同时，大量的小型污水处理设施难以配备专业的技术人员进行日常监管。因此，这些污水处理设施的运行在客观上需要智能化控制或者集中化控制[1]。这在客观上需要准确、便捷、成本低的水质参数检测手段，以摆脱对现有昂贵检测仪器的依赖。

软测量可以通过机器学习等方式建立基础指标(例如溶解氧等)与目标指标(例如生化需氧量等)之间的数学关系，并最终从基础指标推断目标指标的数值。与常规目标指标的检测方法相比，这些基础指标检测耗时短、费用低，获得的相应的目标指标耗时较短、费用低廉。软测量的这些优点使其在部分工业领域得到了广泛的应用[2]，这也为污水处理设施水质指标的日常监测与实现污水厂运行智能化提供了新的解决途径。

近年来，国内的研究人员在污水处理领域对软测量技术进行了大量的研究。本文通过综述现有文献，概述了软测量技术测量污水处理相关水质指标的进展。相关论文的研究由自动化、计算机等专业人员完成。本文从水处理专业角度探讨有待进一步研究之处，期望可以起到抛砖引玉的效果。

1 软测量技术测量水质的技术原理

软测量技术本身未采用任何硬件去测量目标水质指标的数值。其构建了一批其他水质参数的检测值与已经获得的目标水质指标检测值之间的某种相关关系，从数值上，通过其他水质指标数值来推断目标水质指标的数值。软测量技术一般通过机器学习的方式来实现，故上述相关关系的准确构建过程不受人工干预，最后构建成的关系也是未知的。然而，构建相关关系在实践中具备使用价值。

软测量在实际运用过程中有多种可使用的机器学习方式。这些机器学习手段均使用了复杂的数学手段，在有限的篇幅中对任意一种数学手段的原理进行详细介绍是非常困难的。本文仅对使用广泛的BP(back propagation，误差反向传播)神经网络、RBF(radical basis function，径向基函数)神经网络以及支持向量机方法的基本原理进行介绍。实际运用过程中，上述3种软测量手段存在多种变种。这些变种的技术细节可参考本文的参考文献。

1.1 BP 神经网络原理

BP神经网络由输入层、隐藏层和输出层构成。每层节点数量没有限制，但是隐藏层节点数一般大于等于输入层节点数。图1为有3个输入变量的BP神经网络。输入层接收来自辅助变量的数据。隐藏层中每一个节点的输入是通过线性组合得到的一个数值，该数值是输入层所有节点数值与对应权重乘积的和加上一个常数项；该节点的输出是该线性组合值作为变量经过该节点上的一个激励函数处理后的函数值。隐藏层每个节点的输出与相应权重相乘的和加上一个常数项是输出层节点的输入。该输入经过输出节点中的激励函数处理后，作为该输出节点的输出。若该输出与测量值不一致，那么结合反馈，采用最优化方法，调整上述过程中涉及的权重值以及激励函数中的参数，直到输出层输出数值与测量值之间的差值足够小。神经网络的训练过程就是利用已有目标参数的数值监督学习，并调整上述权重和激励函数中参数值的过程。当训练完成之后，该神经网络具备将输入参数转化成输出的能力。

BP神经网络是应用广泛的神经网络，如图1所示。但是，其计算量大，易于陷入局部最小点，从而使预测不准确。

图1 BP神经网络的结构Fig.1 Structure of BP Neutral Network

1.2 RBF神经网络原理

RBF 神经网络的结构与BP神经网络类似，也包括输入层、隐藏层和输出层。不同的是，输入层到隐藏层之间的权重恒等于1。BP神经网络中的激励函数一般采用Sigmoid 函数，而RBF神经网络隐藏层中一般采用高斯函数等具备径向对称性的函数。隐藏层任意节点高斯函数的输入为输入层的参数向量与该高斯函数权值向量之间的距离。若输入的参数向量与该节点高斯函数的权值向量距离较远，那么该输入向量对该节点的输出影响很小。RBF神经网络的训练过程就是确定高斯函数的中心、方差和隐藏层到输出层权重的过程。根据函数中心优化方法的不同，RBF高斯函数有多种函数中心优化方法，如随机选取法、自组织选取中心法、有监督选取中心法和正交最小二乘法。

与BP神经网络相比，RBF神经网络学习速度快，并可有效避免陷入局部最小值。RBF神经网络可能存在过学习的问题，即训练得到的模拟曲线在两个样本点之间不平滑。

1.3 支持向量机原理

若样本点可被一个空间面在多维空间被有效地分开成两批，该空间面向这两批样本点分别平移所碰到的第一个样本点称为支持向量。基于支持向量的支持向量机方法不但可以用作样本点的分类，也可以用作回归分析。

当用作回归分析时，支持向量机方法将输入向量通过非线性映射φ(x)变换到另一个高维空间，并在此空间内进行线性回归[3]。对于一个训练集[式(1)]，对该训练集进行训练，实际上是求函数[式(2)]，

使得函数值与yi之间的距离尽可能小。经过数学变化，上述函数等价变换成式(3)和式(4)。

X={(x1,y1),…，(xi,yi),…，(xm,ym)}∈Rn×R

(1)

f(x)=(w·x)+bb∈R

(2)

(3)

K(xi,x)=φ(xi)·φ(x)

(4)

其中：(w·x)——内积；

K(xi,x)——核函数，一般取径向基函数(高斯函数)。

支持向量机方法原则上可以避免过学习的问题。

2 软测量技术测量水质的途径

在软测量领域，目标指标称为主变量(primary variable)。主变量一般是化学需氧量、生化需氧量等检测需时长、流程复杂的水质指标，是软测量的预测目标。相应地，基础指标称为辅助变量(secondary variable)。辅助变量一般是酸碱度等容易检测的指标。软测量模型的开发及使用一般包括下述步骤。

2.1 筛选辅助变量

不是所有易检测的水质参数都与主变量相关，有的辅助变量与主变量相关性较弱。因此，为了方便收集和处理数据，通常需要限定辅助变量的选择范围。辅助变量的选择可根据研究人员的专业知识通过提出初步的范围以及主成分分析等数学工具筛选必要的辅助变量。

2.2 数据处理

现场采集到的辅助变量的测量数值不是恒定的。对于任意一个辅助变量，若部分检测值与其他数值的偏差较大，需将显著偏离其他数值的数据筛选出去。通常情况下，将与样本平均值差别大于样本标准差3倍的数据剔除。必要时，需将数据进行标准化处理，还需将获得的数据按照一定的方式分为2～3批，以满足后续构建模型的学习和检验。

2.3 模型的选用

大量的机器学习手段可以用来构建辅助变量和主变量之间的相关关系。然而，不同的机器学习方式在复杂程度、计算速度、收敛于全局最优点的能力、过学习的性能方面存在较大的差异。原则上，在有大量训练数据的情况下，现有的机器学习方式均可以实现良好的预测效果。

2.4 模型训练、验证、使用

采用样本对建立的模型进行训练后，应采用其他样本验证模型的正确性。只有在模型的正确性得以验证的前提下，该模型才具备可被运用的前提。该步骤应该考虑避免模型的过拟合和欠拟合。

2.5 模型的在线矫正

模型在使用的过程中，受到进水水质变动等因素的影响，软测量的预测能力可能会退化。因此，需对软测量模型进行一定的矫正，使其预测能力在受到干扰的情况下也能预测准确。

3 国内污水处理软测量的研究进展

图2为2008年至今所有发表在中文期刊上涉及不同软测量技术的论文与相关论文总数的比例。图2显示，基于神经网络的软测量技术是最常见的软测量技术手段，支持向量机方法相关的论文比例略低于基于神经网络的论文，采用其他方法的论文数量较少。表1显示，国内的相关研究主要关注反应器出水水质的预测。在此方面，国际上的主流方法是神经网络，支持向量机方法非常少见[4]。在软测量的运用上，除对反应器出水水质做监测之外，软测量还可用于监测反应器和其他在线测量设备的运行状态。国内的研究基本不涉及后两者。

图2 国内用于污水处理的不同软测量方法比例(2008—2019)Fig.2 Ratios of Different Soft-Sensor Technologies Applied in Wastewater Treatment in China during 2008—2019

3.1 软测量方法的准确性

BP神经网络是最为成功的神经网络，但BP神经网络并未被作为主要研究方法，而是被作为对比方法出现在论文中。由于BP神经网络易收敛于局部最优点，该方法的预测结果与测量值偏差较大。软测量技术一般采用可以避免收敛到局部最优点的神经网络方法。例如，采用径向基函数神经网络，该神经网络在一定程度上解决了BP 网络训练时间长、收敛速度慢、收敛到局部最小的问题[5]。类似地，支持向量机方法具有全局最优解，对新鲜样本适应能力更强，故其也得到了较多的应用。研究人员使用各式各样的神经网络和支持向量机方法。尽管方法不同，但是这些方法的预测结果一般与测量值均很接近(表1)，这说明软测量技术具备很高的准确性。

3.2 软测量方法可靠性

表1显示各项研究用于训练模型的样本数用于测试模型的样本数存在巨大差异。由于城市污水水质全年波动较大，只有在软测量模型可以准确地、长期地在线预测污水处理设施出水水质的情况下，该软测量模型的实用性才能得到充分的检验。只用少数几个或几十个样本去检验构建的软测量模型的有效性尚缺乏说服力。

污水水质的变化等因素会对污水处理设施的出水效果造成影响，这就导致构建的软测量模型的预测效果存在退化的问题。因此，构建的软测量模型需要具备在线矫正的能力。只有少量的软测量方法可以做到在线预测而非仅采用历史数据对出水进行模拟。相关科研人员在此方面做了有益的探索[6-10]，这些研究以使用支持向量机方法为主。

3.3 软测量方法实用性

国内的研究工作绝大部分的研究对象为城市污水，只有极少量论文涉及造纸废水[11]。在污水处理过程中，城市污水的机理建模已经积累了很多的经验。理论上，活性污泥数学模型具备较好的预测出水水质的能力。在复杂工业污水方面，由于水质与城市污水相差较大，其机理建模相对困难。例如，在污水厌氧处理方面，虽然厌氧过程有厌氧消化数学模型可供使用，但是该模型只是提供了一个大致的模型框架，相关过程参数的具体数值在模型运用时一般需要标定。这给厌氧消化数学模型的运用带来了极大的困难。这说明，软测量在工业污水处理方面具备较大的运用空间。将软测量用于工业污水方面的研究，国际上的案例相对较多[2,4]。Molga等[12]采用神经网络对处理纺织工业废水生物反应器的出水化学需氧量(COD)和氮类化合物进行了准确的预测。类似地，软测量在预测生物反应器处理造纸废水、医药废水、制糖废水等工业废水的出水水质方面也取得了较好的效果[13-15]。这意味着采用软测量技术预测工业废水的出水水质是可行的。

表1显示，预测指标以出水生化需氧量(BOD)、COD、总氮(TN)、总磷(TP)为主。这些指标的人工测试较为繁琐，且仪器在线测试耗时较长，故这些指标是软测量的目标指标。即使是预测同样一个水质指标，例如BOD，不同的研究所采用辅助变量的数量以及类型差异较大。这意味着，面对一个同样的目标指标，所对应的辅助变量需要根据具体的情况进行选择。除了上述4个指标，目前尚缺乏对硝酸盐、凯氮等指标的预测，而这些指标也是可以进行软测量预测的[4]。

绝大部分的中文论文预测反应器出水水质参数而忽略了进水水质参数的软测量检测。通过对进水水质的检测以及事先建立的活性污泥模型，有望可以及时调整反应器的操作，从而保障出水水质。相关论文认为，活性污泥模型涉及的参数众多，实际应用麻烦[5]。当应用于城市污水时，虽然活性污泥参数众多，但是除了自养细菌的最大生长系数需要矫正之外，其他参数一般均不需要矫正。正确使用活性污泥模型的关键正是对入水水质的准确测量。国外很早就实现了对进水TP浓度的在线软测量，并取得了很好的测量精度[16]，这说明进水水质的在线软测量也是可以实现的。

现有软测量模型虽然可以很好地预测出水水质，但是难以对调控反应器的运行提出针对性的指导。因为大部分软测量模型没有将污水处理设施的操作参数，例如污泥回流量、污水回流量等加入到模型中，而这些操作参数必然对污水处理效果造成影响。

软测量在某些工业领域得到了广泛的应用，这说明软测量技术的应用存在合理性[4]。现有的中文文献主要以科学研究为主。虽然部分研究成果形成了硬件，但是进行工业化运行的例子还比较少[17-18]。与国外的情况相比，软测量技术在国内的应用显得较为滞后。在韩国，部分小型污水处理设施的水质水量波动较大，缺乏具备专业技能的管理人员。通过对电导率、温度、酸碱度、溶解氧、氧化还原电位(ORP)以及浊度的检测，研究人员构建了这些变量与出水化学需氧量以及氮磷浓度的关系，并通过集中管理的方式指导这些小型污水处理设施的运行。通过这种方式，避免了在每个小型污水处理设施配置专业人员的巨大人力成本[1]。这为我国广大农村污水处理设施的运行提供了很好的范例。在农村，缺乏专业的污水处理设施管理人员是一个现实的问题。在实现软测量的基础上，对农村污水处理设施进行中心化管理是一个可能的解决途径。软测量也在其他国家实际运行的污水设施中被用于监测反应器出水的氨氮、硝酸盐、COD、磷酸盐和TN[19-21]。这说明软测量技术在污水处理领域也是具有应用价值的。

表1 近5年污水处理软测量技术的相关研究文献Tab.1 Details Regarding Soft-Sensor Technologies for Wastewater Treatment in Recent 5 Years

注：a为训练样本数/测试样本数；b为合计数量；SVI为污泥容积指数；SS为悬浮固体浓度

3.4 软测量实例

研究人员采用软测量技术预测了污水厂的出水水质[1]。该研究以温度、流量、酸碱度、溶解氧浓度、氧化还原电位、浊度和电导率为辅助变量，以COD、硝酸盐、磷酸盐浓度为主变量。在模型训练阶段，每个主变量大约采用了300个数值作为训练数值。训练完成后，预测数值约为600个。模型的预测结果以及测量结果之间的比较如图3所示。由图3可知，从整体上看，3个主变量的测量值与预测值吻合较好，这说明软测量取得了良好的预测效果。同时，图3显示模型预测早期(前500个数值)的准确性显著高于后期，这说明软测量虽然可以取得准确的预测效果，但是若要在后期取得非常准确的预测结果，那么后期的模型矫正也是需要的。但是，即使不采取措施对后期的软测量模型进行矫正，后期较小的偏差也不影响运行人员对出水水质的判断。

图4 以活性污泥数学模型为基准，比较神经网络预测值与模型模拟值之间的差异Fig.4 Comparison between Effluent Variable Predictions Obtained with Activated Sludge-Based Model and Artificial Neural Network (ANN)

图3 模型预测污水处理设施的出水水质 (灰线：预测值，黑线：测量值)Fig.3 Prediction from Soft Sensors (Grey Line: Prediction; Circles: Operation Data)

欧洲的研究人员对一个虚拟的污水厂构建了活性污泥三号模型与神经网络模型[36]。神经网络采用的辅助变量是活性污泥数学模型(activated sludge model No.3，ASM3)的进水数值参数。两个模型的出水效果如图4所示。在该研究中，以活性污泥模型的计算结果为标准参照值。图4显示，神经网络对出水有机物浓度的预测结果与标准参照值非常吻合，而氮类的部分预测结果稍有偏差。这些偏差一般可以采用优化训练值以及神经网络结构来削减。同时，这种偏差远小于采用活性污泥数学模型预测实际污水厂出水水质的偏差，因为后者的偏差来源于活性污泥的数学结构以及入水水质的准确测量。因此，采用神经网络代替活性污泥数学模型对污水厂进行出水水质预测是完全可行的。

4 结论

本文总结了国内软测量技术在污水处理领域的研究状况。相关的研究人员主要采用神经网络和支持向量机方法对城市污水处理反应器的出水水质进行预测，预测结果与测量结果均较为接近，取得了很好的预测效果。未来值得关注的研究领域在于拓展现有的预测水质指标，加强对工业污水出水水质的预测，强化对进水水质的软测量工作以及软测量模型的在线矫正，并将研究结果运用于实际生产实践。