APP下载

近红外光谱的海水微塑料快速识别

2022-11-07冯巍巍蔡宗岐

光谱学与光谱分析 2022年11期
关键词:光谱塑料准确率

吴 雪,冯巍巍,蔡宗岐,王 清

1. 哈尔滨工业大学(威海),山东 威海 264209 2. 中国科学院海岸带环境过程与生态修复重点实验室(烟台海岸带研究所),山东 烟台 264003 3. 中国科学院海洋大科学研究中心, 山东 青岛 266071 4. 中国科学院大学, 北京 100049

引 言

塑料制品在日常生活中随处可见,迄今为止全球生产的83亿吨塑料中,有10%以塑料碎片的形式积累在海洋和淡水系统中,使塑料污染成为快速增长的环境问题[1]。塑料经过降解,变为微塑料,微塑料可能作为吸附污染物、 病毒等的载体对人类和其他生命形式具有潜在的危害。为了研究微塑料在环境中的运输过程以及对环境的污染情况,在现场对微塑料进行识别检测是非常有必要的[2]。

现阶段,微塑料的识别检测方法大部分为目视法,光谱法和热分析法[3],然而目视法具有很大的主观性,热分析法在检测过程容易损坏样品,光谱法包括拉曼光谱法和近红外吸收光谱法,拉曼光谱不仅需要大量的数据预处理[4],而且由于荧光作用的影响,需要对样品进行前处理[5]。近红外光谱检测技术利用近红外吸收带探测聚合物官能团的拉伸和弯曲模式,通过微塑料独特的化学成分和成键模式识别微塑料[2]。机器学习算法在数据处理方面表现出强大的性能,利用机器学习算法与近红外光谱结合,可以实现现场实时快速检测,具有快速,高效,无损等特点。

采用近红外光谱检测结合XGBoost机器学习分类算法可快速识别海水中的微塑料,不仅操作简单,适用范围广,而且携带方便,可以实现现场实时快速检测[6]。

1 实验部分

1.1 微塑料样品近红外光谱检测系统

近红外光谱检测系统由照明系统、 分光系统以及接收系统组成,图1为微型近红外光谱检测系统结构示意图。首先利用带光源的积分球测得未放置样品时的光通量,然后放置样品进行测量;测得的样品光谱数据通过接收光纤经光谱收集模块和光谱处理模块进行处理,处理后的光谱数据经光电转换模块进行光电转换后进入数据处理模块进行数据处理。

图1 近红外光谱检测系统

1.2 模型评价方法

K折交叉验证将原始数据集划分为相等的K份(“折”),选取其中的一份作为测试集,其他部分作为训练集,重复K次,通过训练集来计算模型的准确率,取平均准确率为模型的最终准确率[4]。其中10折交叉验证不仅能准确描述模型的泛化能力,而且具有较好的稳定性和识别速率[7]。本工作采用10折交叉验证。

图2 K折交叉验证结构示意图Fig.2 K-fold cross-validation structure

混淆矩阵(confusion matrix)又称误差矩阵,一种特定的矩阵呈现算法性能的可视化效果,每一列代表预测值,每一行代表实际的类别,混淆矩阵能够全面的反映模型的性能[8]。

1.3 分类识别算法构建

1.3.1 数据降维

原始的近红外光谱在900~1 750 nm范围内具有512个数据波段,不同的近红外光谱数据波段对模型识别的准确率的重要性程度不同,XGBoost算法属于集成算法,在特征考虑方面相对全面。因此利用XGBoost算法对近红外光谱数据波段的重要性程度进行评估,筛选出重要性程度高的特征波段,达到提高模型识别准确率和速度的目的[9]。

1.3.2 SVM,XGBoost模型的构建

支持向量机算法利用超平面分离数据点,通过最大化超平面到两个子类中两个最近数据点的距离(即边距m)[10],达到分类的目的。

XGBoost是一种基于树的集成算法,内部决策树采用回归树[11],该算法已被证明是一种可靠、 高效的机器学习问题解决器[12]。XGBoost算法不断通过误差添加回归树进行拟合,然后把这些回归树进行集成划分进行分类。

图3为XGBoost算法和SVM算法识别微塑料模型建立的流程,数据集输入后利用XGBoost算法进行特征提取,然后进行重组,将预处理后的数据集分为测试集和训练集两部分,利用SVM算法和XGBoost算法对训练集进行学习建模[13],利用测试集评估模型的整体性能。

图3 XGBoost和SVM算法识别微塑料Fig.3 XGBoost and SVM for microplastic detection

1.3.3 模型参数的选择

XGBoost包含较多的超参数,目前对超参数的调整选择并没有明确的规则[11],本文运用网格搜索(GridSearchCV)对模型影响较大的超参数n_estimators即迭代次数、 learning_rate即学习率、 min_child_weigh即最小的叶子节点权重、 max_depth即树的最大深度、 gamma即叶子节点分裂时所需要的最小的损失减小量进行选取。

GridSearchCV不仅可以遍历每一种参数的可能性,找到最佳参数,而且可以利用交叉验证有效的避免偶然性[14]。

2 结果与讨论

2.1 原始近红外光谱数据获取

采用微型近红外光谱仪对丙烯腈、 丁二烯、 苯乙烯的三元共聚物(acrylonitrile butadiene styrene,ABS),聚丙烯腈(polyacrylonitrile,PAN),聚碳酸酯(polycarbonate,PC),聚对苯二甲酸乙二醇酯(polyethylene glycol terephthalate,PET),聚甲基丙烯酸甲酯(polymethyl methacrylate,PMMA),聚丙烯(polypropylene,PP),聚苯乙烯(polystyrene,PS),聚氯乙烯(polyvinyl chloride,PVC),热塑性聚氨酯(thermoplastic polyurethane,TPU),乙烯-醋酸乙烯酯共聚物(ethylene-vinyl acetate copolymer,EVA),聚对苯二甲酸丁二醇酯(polybutylene terephthalate,PBT),聚己内酯(polycaprolactone,PCL),聚醚砜(polyethersulfone,PES),聚乳酸(polylactic acid,PLA),聚甲醛(polyoxymethylene,POM),聚苯醚(polyphenylene oxide,PPO),聚苯硫醚(polyphenylene sulfide,PPS),聚四氟乙烯(poly tetra fluoro-ethylene,PTFE),聚乙烯醇(polyvinyl alcohol,PVA),苯乙烯-丁二烯-苯乙烯嵌段共聚物(styrenic block copolymers,SBS)20种常见的微塑料样品采集近红外光谱数据。选取900~1 750 nm近红外光谱波段,可准确地检测出PC,PET,PS,TPU,PBT,PES,PPO,PPS和SBS的苯环吸收振动峰以及PC,PET,PMMA,TPU,EVA,PBT,PCL和PLA的酮羰基吸收振动峰。积分时间150 ms,对20种微塑料测取了1 260个样本数据。每种微塑料样品的部分近红外光谱图如图4所示。

图4 微塑料样品原始近红外光谱Fig.4 Original Near Infrared spectra of microplastics

2.2 数据降维

利用XGBoost算法对近红外光谱512个特征波段的重要性进行评估,筛选出了重要性程度高的65个特征波段[4],对数据进行降维,图5为XGBoost筛选出的重要性程度位于前30的数据点。

图5 重要程度位于前30的光谱变量Fig.5 The 30 most important spectral variables

2.3 XGBoost参数对比评价

运用GridSearchCV对n_estimators,learning_rate,gamma分别在100~900,0.01~0.09,0.00~0.40中网格搜索选取最佳超参数,其中min_child_weigh和max_depth一起调参,在1,3,5中进行最佳超参数选择。如图6所示,确定n_estimators取700,learning_rate取0.07,min_child_weigh=1和max_depth=1,gamma取0.0为最佳超参数。

2.4 SVM与XGBoost模型评估对比

使用已进行降维操作后的测试集样本对已建立的SVM和XGBoost模型进行评估。由图7的SVM混淆矩阵可以看出,SVM模型对11种微塑料的识别准确率达到100%,有4种微塑料的识别准确率达到90%以上,有4种微塑料的识别准确率达到80%以上,1种微塑料的识别准确率为76%。由图7的XGBoost混淆矩阵可以看出,XGBoost模型对15种微塑料的识别准确率达到100%,识别准确率达到90%以上的有3种,2种微塑料的识别准确率达到83%以上。

由表1和图8可以看出,在同等条件下,XGBoost模型的识别准确率为97%,而SVM模型的识别准确率为95%;且XGBoost模型的Accuracy score,Precision score,Recall和F1-score的平均准确率均高于SVM模型。综上所述,SVM模型的整体性能低于XGBoost模型。

图6 不同n_estimators,leasning_rate,max_depth,gamma下CV平均准确率Fig.6 CV average accuracy of n_estimators, learning_rate, max_depth, gamma

图7 SVM和XGBoost混淆矩阵Fig.7 SVM and XGBoost confusion matrixes

表1 XGBoost和SVM算法运行结果对比Table 1 Comparison of operation results between XGBoost and SVM algorithms

续表1

图8 XGBoost和SVM10折交叉验证下准确率, 精准率,召回率,F值

3 结 论

微塑料可能作为吸附污染物、 病毒等的载体对人类和其他生命形式具有潜在的危害,为了研究微塑料在环境中的运输过程以及对环境的污染情况,在现场对微塑料进行识别检测是非常有必要的。通过近红外光谱检测系统测得环境中常见的20种微塑料标准样品的光谱数据,利用XGBoost特征重要性排序,提取65个光谱数据点,对数据降维。运用GridSearchCV对影响XGBoost模型较大的超参数进行选取,确定n_estimators,learning_rate,min_child_weigh,max_depth,gamma的最佳超参数分别为700,0.07,1,1,0.0。对XGBoost模型和SVM模型进行10折交叉验证评估和混淆矩阵评估,确定XGBoost模型、 SVM模型对20种微塑料的识别准确率分别为97%和95%;通过混淆矩阵可以看出XGBoost模型对微塑料识别的准确率优于SVM模型。综上所述,XGBoost模型微塑料识别整体性能优于SVM模型,为实际微塑料快速识别提供技术支撑。

猜你喜欢

光谱塑料准确率
基于三维Saab变换的高光谱图像压缩方法
基于3D-CNN的高光谱遥感图像分类算法
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
薄膜光伏组件在不同光谱分布下的测试差异
塑料也高级
塑料的自白书
塑料