APP下载

基于支持向量机的黄东海富营养化快速评价技术

2016-06-07孔宪喻苏荣国中国海洋大学海洋化学理论与工程技术教育部重点实验室山东青岛266100

中国环境科学 2016年1期
关键词:支持向量机富营养化

孔宪喻,苏荣国(中国海洋大学,海洋化学理论与工程技术教育部重点实验室,山东 青岛 266100)



基于支持向量机的黄东海富营养化快速评价技术

孔宪喻,苏荣国*(中国海洋大学,海洋化学理论与工程技术教育部重点实验室,山东 青岛 266100)

摘要:以发展黄东海富营养化现场快速监测技术为目的,选取有色溶解有机物(CDOM)特征吸收系数aCDOM(255)、aCDOM(355)、aCDOM(455)及能现场实时监测的浊度(Tur)、叶绿素a(Chl a)、溶氧(DO)等水质参数,以TRIX值为参照,利用支持向量机建立了近海富营养化快速评价技术.建立的支持向量机模型最优惩罚参数C=45.3,最优核函数参数g=0.7,对训练集分类准确率为92.5%,交叉验证准确率为91.8%,验证集分类准确率为85.0%.结果表明:基于CDOM吸收系数及DO、Chl a、Tur建立的近海富营养化快速评价技术能够准确的对近海富营养化状态进行评估,可为近海富营养化的现场快速监测提供技术支持.

关键词:富营养化;快速评价;有色溶解有机物(CDOM);支持向量机

∗ 责任作者, 副教授, surongguo@ouc.edu.cn

随着沿海经济的快速发展,大量富含氮、磷等的工业废水和城市生活污水排放入海,使近海富营养化问题日益突出.对近海富营养化进行现场快速实时评价成为海洋环境监测的迫切需要.目前,富营养化评价的常用方法主要包括单因子评价法(TSI)[1],富营养化指数法(EI)[2]、营养状态质量指数法(NQI)[3]、富营养化状态指数法(TRIX)[4]等综合指数法,评价指标主要包括营养盐、COD、BOD、溶氧(DO)、叶绿素a(Chl a)、浊度(Tur)等.由于营养盐、COD等参数的测定存在操作较为复杂、试剂用量大等缺点,难以实现现场实时监测.

有色溶解有机物(CDOM)是存在于水体中的一类含有富里酸、腐殖酸、芳烃聚合物等物质的可溶性有机物,与营养物质的生物地球化学循环密切相关[5].CDOM的紫外可见吸收光谱的特定波长吸收系数可有效地揭示CDOM的组成特征,CDOM的浓度通常由某一选定波长处的吸收系数来表征.有研究指出CDOM的紫外可见吸收与DOC 、COD、营养盐等水质参数有显著相关性[6-8],同时紫外可见光谱分析技术已广泛应用于在线实时监测.

支持向量机(SVM)是由Vapnik[9]根据统计学理论提出的一种基于结构风险最小化原则,通过引用核函数,将输入空间中的非线性问题映射到高维特征空间,借此转化成构造线性判别函数,在模式识别、图像处理、数据挖掘、回归预测等领域广泛应用[10-13],可以很好地解决非线性问题.

近海富营养化的评价因素与富营养化等级之间关系复杂而且具有非线性特征.因此,本文以黄东海海域为研究对象,选取CDOM的特征吸收系数及可现场实时监测的DO、Chl a、Tur等水质参数,以TRIX值为参照,利用支持向量机建立黄东海富营养化快速评价技术.

1 材料与方法

1.1 研究区域

研究区域位于黄东海海区,样品采集于2013 年7月,共57个站位,站位分布如图1所示,共采集样品294个.具体方法:用Niskin采水器现场采集1L水样,立即用0.7μm的GF/F膜过滤,过滤后的膜样用锡纸包好冷冻保存,用于测定Chl a的含量;过滤后的水样置于洁净棕色玻璃瓶中冷冻保存(-20℃),用于紫外可见吸收光谱分析;另外直接取未过滤的100mL水样于聚乙烯瓶中冷冻保存,用于TN和TP的测定.

图1 2013年7月黄东海航次站位Fig.1 Sampling stationsof the Yellow Sea and the East China Sea in July 2013

1.2 测定方法温度(T)、盐度(S)、DO和Tur:利用CTD测得.

Chl a:使用岛津UV-2550紫外可见分光光度计,1cm石英比色皿,用90%的丙酮溶液萃取膜样后的上清液于比色皿中测定,以90%的丙酮溶液做参比,波长范围为400~800nm.取664,647, 630,750nm处的吸光度用Jeffrey and Humphrey方程计算Chl a浓度[14].

CDOM吸收系数:使用岛津UV-2550紫外可见分光光度计,水样用0.2μm聚醚砜针头滤器过滤,1cm石英比色皿,以Mill-Q标准纯水做参比进行测定.

1978年,党的十一届三中全会做出了把党和国家工作中心转移到经济建设上来的历史性抉择,开启了中国改革开放的新纪元。从以阶级斗争为纲转变到以经济建设为中心,从封闭转变到扩大开放,从固守陈规转变到改革创新。改革从农村到城市,从经济领域到政治领域、科技教育及其他社会生活领域。面对社会经济领域改革发展带来的系统性、复杂性等问题,相关研究组织和机构陆续成立,一大批专家学者投身到这些问题的研究中。面对新形势和新问题,为更好地服务科学决策,理论、方法、实践亟待创新和运用。

TP和TN:分别采用磷钼蓝法和镉-铜还原法对水样TP和TN浓度测定.

1.3 富营养化状态指数TRIX

1998年,Vollenweider等[4]提出了近海富营养化评价方法的TRIX指数法:

式中:Chl a为水体中叶绿素a的浓度,µg/L;TN、TP分别代表水体中总氮和总磷的浓度,µg/L; aD%O为水体中溶解氧的绝对标准偏差.

TRIX指数法包括了压力因素TN和TP、生态响应因素Chl a及环境干扰因素溶解氧DO,较为全面的评价了富营养化状况,具有简单,准确度高等优点.富营养化状态指数法已在地中海、黑海、波罗的海等近海水域的富营养化状态评价中得到了广泛的应用,并取得较好的效果[15-17].TRIX指数法对富营养化状态的分类标准为: 2

1.4 富营养化快速评价技术建立

SVM利用核函数将低维输入空间中线性不可分的点映射成高维特征空间中线性可分的点,在高维空间构建最优超平面,使同类样本之间的相似性尽可能的大,异类样本之间的相似性尽可能的小,理论上可以得到全局最优的解析解,不存在局部最优化问题,可达到最大泛化能力.可用图2的二维分类情况说明,小圆点和三角代表两类样本,H为分类超平面,H1和H2分别为离分类超平面最近的样本且平行于分类超平面的平面,它们之间的距离叫做分类间隔.高维空间中距离分类超平面最近的点所对应的低维空间点称之为支持向量,如图中大圆点所示[19-20].

图2 最优分类超平面示意Fig.2 The optimal separating hyperplane

SVM的另一个重要特征是解的稀疏性,即需要少量支持向量即可构造最优分类器,在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势[21-23].海水的富营养化评价是典型的模式识别问题,影响水质的因素很多,评价指标与水质标准等级之间是复杂的非线性关系,因此,支持向量机分类适用于建立富营养化评价技术.

SVM常用的核函数包括线性核函数、多项式核函数、sigmoid核函数和径向基核函数,应用最广泛的是径向基核函数,且具有较宽的收敛域,是较为理想的分类依据函数[24].本研究使用径向基核函数.径向基核函数可表示为:

选定核函数后,需确定最优惩罚参数C和核参数g.惩罚参数C主要表示错分样本的惩罚程度,核参数g主要影响样本数据子空间分布的复杂程度.通常用k-折交叉确认法来评价参数的优劣[25].

为全面反映海域富营养化状况,选取水质状态和生态响应两方面指标作为富营养化快速评价指标.其中,水质状态反映了海域富营养化的致害或压力因素,生态响应反映了海域富营养化的效应因素.水质状态指标包括反映水体溶解有机物特征(CDOM的特征吸收系数)指标和反映水体悬浮颗粒物特征(浊度)指标,生态响应包含初级生态响应(叶绿素a)和次级生态响应(溶解氧)指标.

富营养化快速评价技术建立的具体步骤为:利用支持向量机构建近海富营养化快速评价模型,以CDOM特征吸收系数aCDOM(255)、aCDOM(355)、aCDOM(455)及DO、Chl a和Tur等参数为输入变量,TRIX评价结果为因变量,建立样本数据集(训练集),通过网格寻优对支持向量机分类预测模型的各项参数进行寻优处理,找到最优的参数取值;然后利用支持向量机进行学习训练,得到基于网格寻优的支持向量机(GRIDSVM)模型,并利用此模型对验证集样品进行预测;最后讨论快速测定指标的精度及温度和盐度等环境因素对模型的影响.

2 结果分析

2.1 相关性分析

对支持向量机模型输入变量进行分析,去除不相关或重复变量,对于保证模型的合理性以及提高模型的准确度具有重要意义.计算了各输入变量与TRIX值及TN、TP的Pearson相关系数,结果如表1所示.

由表1可知,在0.01的显著性水平下,DO、Chl a、Tur与TN、TP和TRIX都具有显著相关性,相关性系数在0.231~0.771之间,吸收系数aCDOM(255)与TP和TRIX相关性系数分别为-0.247和-0.163,aCDOM(355)与TN相关性系数为0.170,aCDOM(455)与TRIX值在0.05的显著性水平下具有显著相关性,表明本研究选取的CDOM特征吸收系数aCDOM(255)、aCDOM(355)、aCDOM(455)及DO、Chl a、Tur等水质参数与水体富营养化之间具有关联性.

表1 输入变量和TN、TP及TRIX值的Pearson相关系数Table 1 The Pearson correlation coefficient between the input variables, TN, TP and the TRIX values

2.2 TRIX富营养化评价标准

表2 TRIX值及水质参数表Table 2 Statistics of TRIX values and water quality parameters

对294个样品的DO、Chl a、Tur、aCDOM(255)、aCDOM(355)、aCDOM(455)等参数以及TN、TP和TRIX值进行统计分析(表2),可知TRIX的平均值为5.65,变化范围在2.66~7.32之间,符合TRIX分类标准,即2

2.3 富营养化快速评价技术的建立

从294个样品中随机抽取147个样品作为训练集,其余147个样品作为验证集.以CDOM特征吸收系数aCDOM(255)、aCDOM(355)、aCDOM(455)以及DO、Chla、Tur等6个参数为输入变量,以TRIX值为因变量,以TRIX值为因变量,根据TRIX的分类结果,将训练样品对应的低富营养化、中等富营养化和高富营养化状态分别赋值1、2和3.由于数据中各变量的量纲和数量级不同,为减小数值变化幅度差异,将数据进行了[0,1]归一化处理,同时运用主成分降维预处理,设置特征提取百分比为95%,在此基础上,利用支持向量机技术建立富营养化快速评价模型.

采用LIBSVM-3.1软件建立支持向量机分类模型,设置核函数为RBF,为确定惩罚因子C和核参数g的最佳参数值,将C、g分别取以2为底的指数离散值,代入k-cv交叉验证的算法中,选取平均验证准确度最大的C、g值作为模型参数.模型参数设置C∈{2-10,2-9.5,…,210},g∈{2-10, 2-9.5,…,210},V=5,进行网格寻优,结果如图3所示.

图3 网格寻优参数选择结果Fig.3 The optimization results of Grid Search

利用网格寻优方法确定的参数最优值为C=45.3,g=0.7.在此条件下,训练集分类准确率为92.5%,交叉验证准确率为91.8%.所建立的支持向量机(SVM)分类预测函数可以表示:

该模型包含65个5维的支持向量,来自于训练集样本[0,1]归一化后形成的转置矩阵,按行依次分解得到的向量(i=1,2,…,65)以及相对应的分类标签向量;核函数为K(xi,x)=exp(-0.7||x-xi||2);支持向量系数为一个65×2的矩阵,矩阵元素为(i=1,2,…,65),由惩罚参数C=45.3与符号函数组成.

2.4 富营养化快速评价技术的验证

验证集的147个样品,按照TRIX评价结果,38个样品为低富营养化状态,44个为中等富营养化状态,65个为高富营养化状态.利用建立的富营养化快速评价技术对验证集样品进行分析,得到验证集样品的富营养化状态预测值,与TRIX分类结果进行对比,得到验证集样品的分类准确率为85.0%(图4).其中,低富营养化、中等富营养化和高富营养化样品的分类准确率分别是100%、75.0%和83.1%.中等富营养化误判为低富营养化的样品为7个,其中TRIX值在5.0~5.1之间的为5个,中等富营养化误判为高富营养化的样品为4个,其中TRIX值在5.9~6.0之间的为1个;高富营养化样品误判为中等富营养化的样品为11个,其中TRIX值在6.0~6.1之间的为7个,预测错误的样品其TRIX值多数处于富营养化状态分类边界值附近.若不计TRIX分类边界值附近的误判,验证集样品富营养化状态的分类准确率达到93.9%,可见,利用DO、Chla、Tur及CDOM光学参数等6个指标建立的富营养化快速评价技术对实现近海富营养化状态的现场快速评价具有较高的准确度.

图4 验证集的实际分类与预测分类Fig.4 The classification diagram of actual category and predicted category for the test set

2.5 水质指标精度及环境因子影响

利用在验证集数据中各水质指标分别添加随机误差的方法考查了水质指标精度对模型稳定性的影响(表3).结果表明,当随机误差小于20%时,模型预测结果几无变化,当随机误差达到30%时,模型预测准确度稍有降低.说明选取DO、Chla、Tur及CDOM光学参数等6个指标建立的富营养化快速评价技术有较好的稳定性.

表3 水质指标精度对分类模型预测结果的影响Table 3 Effects of water quality indicators accuracy on prediction accuracy of classification model

为探讨温度和盐度等环境因子对模型的影响,在输入变量中加入温度和盐度指标,构建加入不同变量后的分类模型,结果表明(表4),盐度对快速评价技术的预测结果基本没有影响.温度对验证集预测结果也基本没有影响.因此,本文选取DO、Chla、Tur及CDOM光学参数等6个指标建立富营养化快速评价技术受温度、盐度等环境因子的影响不明显.

表4 温度和盐度对分类模型的预测精度的影响(%)Table 4 Effects of temperature and salinity on the accuracy of the classification model (%)

3 结论

基于CDOM特征吸收系数aCDOM(255)、aCDOM(355)、aCDOM(455)及可现场实时测定的DO、Chla、Tur等水质参数,利用支持向量机建立了近海富营养化快速评价技术,对训练集样品富营养化状态的分类准确率为92.5%,交叉验证准确率为91.8%,对验证集样品富营养化状态的分类准确率为85.0%,其中,低富营养化、中等富营养化和高富营养化样品的分类准确率分别是100%、75.0%和83.1%.所建立的富营养化快速评价技术为近海富营养化监测提供了一种快速有效的新方法.

参考文献:

[1] Carlson R E.A trophic state index for lakes [J].Limnology and Oceanography, 1977,22(2):361-369.

[2] 秦铭俐,蔡燕红,王晓波,等.杭州湾水体富营养化评价及分析[J].海洋环境科学, 2009,28(A01):53-56.

[3] 李成高,崔 毅,陈碧鹃,等.唐岛湾网箱养殖区底层水营养盐变化及营养状况分析 [J].海洋水产研究, 2006,27(5):52-62.

[4] Vollenweider R A, Giovanardi F, Montanari G, et al.Characterization of the trophic conditions of marine coastal waters, with special reference to the NW Adriatic Sea: proposal for a trophic scale, turbidity and generalized water quality index [J].Environmetrics, 1998,9(3):329-357.

[5] Rochelle-Newall E J, Fisher T R.Chromophoric dissolved organic matter and dissolved organic carbon in Chesapeake Bay [J].Marine Chemistry, 2002,77(1):23-41.

[6] Hur J, Cho J.Prediction of BOD, COD, and total nitrogen concentrations in a typical urban river using a fluorescence excitation-emission matrix with PARAFAC and UV absorption indices [J].Sensors, 2012,12(1):972-986.

[7] Kowalczuk P, Zablocka M, Sagan S, et al.Fluorescence measured in situ as a proxy of CDOM absorption and DOC concentration in the Baltic Sea [J].Oceanologia, 2010,52(3):431-471.

[8] Vasel J, Praet E.On the use of fluorescence measurements to characterize wastewater [J].Water Science & Technology, 2002, 45(4/5):109-116.

[9] Vapnik V.The nature of statistical learning theory [M].Springer Science & Business Media, 2000.

[10] 顾海峰,游冬良.基于支持向量机的信托公司风险预警指标及模型研究——来自2005年-2013年信托业的经验证据 [J].金融监管研究, 2014,(9):68-87.

[11] 何世钧,唐莹莉,张 婷,等.基于支持向量机的绿潮灾害影响因素的权重分析 [J].中国环境科学, 2015,35(11):3431-3436.

[12] 李祚泳,张正健.基于回归支持向量机的指标规范值的水质评价模型 [J].中国环境科学, 2013,33(8):1502-1508.

[13] 姜 雪,卢文喜,杨青春,等.应用支持向量机评价土壤环境质量[J].中国环境科学, 2014,34(5):1229-1235.

[14] Hoge F E, Vodacek A, Blough N V.Inherent optical properties of the ocean: retrieval of the absorption coefficient of chromophoric dissolved organic matter from fluorescence measurements [J].Limnology and Oceanography, 1993,38(7):1394-1402.

[15] Giovanardi, Vollenweider R A.Trophic conditions of marine coastal waters: experience in applying the Trophic Index TRIX to two areas of the Adriatic and Tyrrhenian seas [J].Journal of Limnology, 2004,63(2):199-218.

[16] Parkhomenko A V, Kuftarkova E A, Subbotin A A, et al.Results of hydrochemical monitoring of Sevastopol Black Sea's offshore waters [J].Journal of Coastal Research, 2003:907-911.

[17] Vascetta M, Kauppila P, Furman E.Indicating eutrophication for sustainability considerations by the trophic index TRIX: does our Baltic case reveal its usability outside Italian waters[C]//PEER Conference, 17th November.2004.

[18] Pettine M, Casentini B, Fazi S, et al.A revisitation of TRIX for trophic status assessment in the light of the European Water Framework Directive: Application to Italian coastal waters [J].Marine Pollution Bulletin, 2007,54(9):1413-1426.

[19] 王 冉,杨道军.基于支持向量机的巢湖富营养化程度评价研究[J].环境科学与管理, 2011,(5):181-184.

[20] 王洪礼,王长江,李胜朋.基于支持向量机理论的海水水质富营养化评价研究 [J].海洋技术, 2005,(1):48-51.

[21] Cristianini N, Shawe-Taylor J.An introduction to support vector machines and other kernel-based learning methods [M].Cambridge: Cambridge University Press, 2000.

[22] 周建国,张希刚.基于粗糙集与灰色SVM的中国CO2排放量预测 [J].中国环境科学, 2013,33(12):2157-2163.

[23] 何世钧,唐莹莉,张 婷,等.基于支持向量机的绿潮灾害影响因素的权重分析 [J].中国环境科学, 2015,35(11):3431-3436.

[24] Hsu C W, Chang C C, Lin C J.A practical guide to support vector classification [OL].2010-04-15

[25] 万 鹏,王红军,徐小力.局部切空间排列和支持向量机的故障诊断模型 [J].仪器仪表学报, 2012,(12):2789-2795.

[26] 王文森.变异系数——一个衡量离散程度简单而有用的统计指标 [J].中国统计, 2007,(6):41-42.

A support vector machine-basedtechnology for rapidly assessing trophic status of the Yellow Sea and the East China Sea.

KONG Xian-yu, SU Rong-guo∗(Key Laboratory of Marine Chemistry Theory and Technology, Ministry of Education, Ocean University, Qingdao 266100, China).China Environmental Science, 2016,36(1):143~148

Abstract:In this study, wedeveloped a support vector machine-based model for rapidly assessing trophic status of coastal watersby easy-to-measure parameters (aCDOM(255), aCDOM(355), aCDOM(455), turbidity (Tur), chlorophyll a (Chl a) and dissolved oxygen (DO)) with the trophic index (TRIX) serving as a reference.After the optimal penalty parameter C(45.3) and kernel parameter g (0.7) were obtained by Grid Search, the SVM model was established and its classificationaccuracy rate was 92.5% for the training data, 85.0% for the validation dataand 91.8% for the cross-validation.The results indicated that the developed technique could be useful for rapidly assessingthe eutrophication status ofcoastal waters.

Key words:eutrophication;rapidly assessing;CDOM;support vector machine

中图分类号:X55

文献标识码:A

文章编号:1000-6923(2016)01-0143-06

收稿日期:2015-06-19

基金项目:山东省自然科学基金(ZR2013DM017);国家自然科学基金(41376106)

作者简介:孔宪喻(1990-),女,山东青岛人,硕士研究生,主要从事海洋污染生态研究.

猜你喜欢

支持向量机富营养化
基于临界点的杭州湾水体富营养化多年变化研究
洪口水库近年富营养化程度时间分布的研究
基于云模型的水体富营养化程度评价方法
高效溶藻菌对富营养化水体的治理效果
基于改进支持向量机的船舶纵摇预报模型
基于SVM的烟草销售量预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
2015年天津大港滨海湿地海洋特别保护区海水质量状况及富营养化状况分析
基于熵技术的公共事业费最优组合预测