APP下载

LIBS结合GA-BP神经网络与GA-SVM对塑料分类研究

2022-03-18路永华

激光与红外 2022年2期
关键词:谱线光谱塑料

路永华

(兰州财经大学信息工程学院,甘肃 兰州 730020)

1 引 言

塑料大量使用,极大地便利了人们的生活,现实面临的问题是塑料在自然界中不易降解,随意丢弃对环境造成很大的污染,废旧塑料在回收过程中,掺杂各种不同类型,这给废旧塑料回收带来极大的困难[1]。因此要实现废旧塑料的回收,最关键是寻找最便捷的方法实现对塑料精确分类,这样可以减少环境污染的同时,又能使资源得到重复利用,提高经济效益[2]。

塑料制品常见的分类方法有人工分类法、拉曼光谱法(RS)[3]、激光诱导荧光技术(LIF)[4]。这三种方法对塑料制品的分类都有一定的优点,但是也存在缺点。例如,人工分类法在现实操作中存在效率低容易分类错误,有的塑料制品挥发有毒气体,长期在这样环境中会对工作人员造成极大的伤害;RS法通过测量塑料样品表面产生的散色光,从而确定塑料样品的分子结构,然后根据分子结构实现对样品的分类,但是采集到的光谱因峰值相互重叠,测定出来的分子结构出现误差,造成识别精度降低;LIF法利用激光光源照射塑料样品,使其产生荧光并对采集到的荧光谱进行分析,但是产生的荧光谱容易受到大气中的臭氧和水蒸气的影响,造成光谱峰值出现偏差,降低识别的精度。

激光诱导击穿光谱(Laser-induced breakdown spectroscopy,LIBS)[5]技术是利用激光光源照射塑料样品表面产生等离子体,利用光谱仪收集产生的光谱数据。这种技术不需要对塑料样品进行预处理、检测时间短、可以迅速获取大量的光谱数据以供后续研究,因此被广泛运用到各种塑料识别的研究中。方正等[6]利用GA-BP神经网络结合X射线吸收光谱,通过主成分分析法实现对常见的15种塑料分类,实验结果表明GA-BP神经网络的识别精度为98.23 %,达到实际要求。项丽蓉等[7]利用LIBS技术结合四种不同的化学计量学方法,对土壤中Pb和Cd元素的含量进行定量分析,研究表明,LIBS技术结合多元化学计量方法可以实现对土壤中重金属含量的准确检测。朱毅宁等[8]为提高LIBS技术在鲜肉品种的识别率,采用主成分分析法结合支持向量机,通过49条特征谱线,实现对三种鲜肉组织进行识别分析,识别精度为89.11 %。于洋等[9]利用LIBS技术结合支持向量机实现对11种塑料样品的分类识别,识别精度为98.73 %。

本文利用激光诱导击穿光谱结合不同模式识别方法(BP神经网络,GA-BP神经网络,SVM模型,GA-SVM模型)对不同塑料样品进行分类研究。采集10种不同塑料样品的光谱,选取光谱中谱线强度大的作为特征谱线,将提取出的特征谱线作为四种模型的输入值,进行识别分析,其中GA-BP神经网络和GA-SVM模型的识别精度明显优于BP神经网络和SVM模型。

2 实验分析

2.1 塑料样品

实验室收集10种常见的塑料样品:聚乙烯(PE)、聚丙烯(PP)、聚甲醛(POM)、聚氨酯(PU)、聚碳酸酯(PC)、聚苯乙烯(PS)、聚四氟乙烯(PTFE)、尼龙-6(PA-6)、工程塑料(ABS)、有机玻璃(PMMA)。10种塑料样品的分子式和颜色如表1所示,将收集到的塑料样品切割成1 cm×1 cm的正方形,厚度为2 mm。用蒸馏水清洗干净塑料样品表面,烘干备用。

表1 塑料样品的分子式和颜色

2.2 实验仪器

本实验仪器如图1所示。其中,采用调Q型开关Nd∶YAG型脉冲激光器,激光器的最大波长为1040 nm,激光束的直径为10 mm,激光器重复频率为10 Hz,波长经过倍频器后,波长变为540 nm。激光器产生的激光束通过镜面反射,垂直透过100 mm的凸透镜,将激光束聚焦到塑料样品表面,从而产生等离子体。利用光收集器对光谱进行汇集,将光信号通过光纤传输至光谱仪中(Andor ME5000,波长范围为200~950 nm)进行分光处理,利用增强型电荷耦合器(ICCD)(型号为Andor DH334T)完成光信号转换为电信号。将得到的电信号传输到计算机中,实现数据的采集与分析。本研究中,通过设置数字脉冲发生器(DG535)实现激光器与ICCD同步。使用X-Y-Z三维精密移动平台实现在塑料样品表面获得不同的光谱采集点。

图1 实验装置原理图

2.3 参数设置

实验在常温常压下进行,室温为25 ℃,湿度为30 %。首先,利用汞光源对光谱仪校准操作,保证校准后波长小于0.2 mm。其次,设置激光器射出的单脉冲能量为50 mJ,经过透镜聚焦后到达塑料样品表面时,激光束的能量约为45 mJ。最后ICCD的门宽和积分时间分别设置为1 μs和2 μs。通过对仪器参数进行调整,使采集到的光谱数据获取最佳的信背比和光谱强度,降低因实验设备带来的数据误差。

2.4 数据收集与特征谱线

在LIBS光谱采集实验中,三维移动平台步长设置为0.5 mm,每次移动时,为了降低实验中因为环境影响造成采集的谱线强度与实际存在偏差,对每个采集点重复采集30次,然后将累积的30次谱线强度求取平均值,作为采集点的谱线强度。特征谱线在选择时,遵循的条件:①谱线间峰值重叠范围小;②谱线相对强度大,易于提取;③同一组谱线强度存在差异。本实验中选取特征谱线包括:金属谱线和非金属谱线,选用美国NIST原子光谱数据作为参考标准,对10种塑料样品的谱线强度进行分析,提取出谱线强度最大的14种谱线作为特征谱线。选取特征谱线对应的元素和标准波长如表2所示。

表2 特征谱线与对应波长

2.5 LIBS数据处理与分析方法

实验中每种塑料样品都采集100组光谱数据,10种塑料样品共有1000组光谱数据,每组数据提取14个特征光谱,组成1000×14维数据矩阵。因为不同的塑料制品,其各种组成元素含量各不相同,对应的特征光谱强度也各不相同,因此可以利用特征光谱强度的差异性,结合相应的模式识别算法可以现实对塑料样品的精确分类。因为实验中,仪器误差、人员操作等都会对采集到的原始数据造成干扰,降低分类的精度,同时不同的特征谱线强度相差过大,需要对数据进行均值滤波和归一化处理,减小数据间差值过大带来的误差[10]。因为10种塑料样品的元素种类基本一致,因此特征谱线的的峰位基本相同。图2所示为10种塑料样品的光谱图。其中对比ABS和PA-6的光谱图,可以看出两种塑料的特征谱线对应波长基本一致,但是特征谱线的强度差异较大。

图2 10种塑料样品的原始光谱图数据

误差反向传播(Back-Propagation,BP)神经网络是一种误差逆向传播的多层前馈网络[11]。利用数据集不断对BP神经网络进行训练,使得网络中的权值和阈值达到最佳,网络误差达到最小。但是网络随着输入数据集维数的增加,网络性能越好,但是建模耗费的时间越长。

遗传算法(Genetic Algorithm)具有很好的全局特性,通过寻找BP神经网络最佳权值和阈值,可以避免网络过早收敛,保证此时寻找的最佳权值和阈值使得网络误差达到最小,提高分类的精度,但是无形中增加建模时间[12]。

支持向量机(Support vector machine,SVM)是一种非线性机器学习模型。在低维不可分的数据集通过算法升维,在高维空间中利用超平面实现数据集线性可分[13]。核函数是寻找高维超平面的关键,超平面的优越性决定着数据集分类的精确度。其中,惩罚参数c和可变参数g对核函数的性能起着决定性的作用。

在支持向量机的算法框架上,利用遗传算法对惩罚参数c和可变参数g进行全局搜索,然后最优选取c和g的组合值[14],此时建立的模型分类结果最佳。

3 结果与讨论

3.1 四种模型分类结果

将220~1100 nm区段对应的特征光谱经过均值滤波和归一化后作为模型的输入向量。本文中,共提取14种元素的谱线作为特征谱线,对应的输出为10种塑料样品,数据集为1000×14维矩阵。利用BP神经网络、GA-BP神经网络、SVM、GA-SVM四种模型对塑料样品做分类研究。本文在MATLAB2016b环境中构建算法模型。四种算法的训练集为600组,预测集为400组。其中,定义每组光谱数据的预测输出结果为“◇”,定义每组光谱数据的期望输出为“*”,当模型的预测输出(◇)和期望输出(*)重合时,可以认为分类结果正确。

图3(a)中是BP神经网络分类结果。经过试验验证采用隐含层为12层,因为输入为14种特征光谱,因此输入层为14层,被分类的塑料种类为10种,所以输出层为10层,最终网络结构为14-12-10。输入层和隐含层采用非线性函数Tan-singmid,Log-singmid,训练时设置的最大网络步数和学习率为100步和0.1,网络误差设置为0.001。通过训练集不断对网络进行训练,直到神经网络收敛。然后利用训练好的神经网络模型对预测集进行分类。分类结果如图3(a)所示,可以看出有6个PTFE被错误分类成PS,网络的识别精度为98.5 %。图4(a)中,网络训练到9步后MSE趋于稳定,但是网络此时的精度为0.01797,与实际设置的网络误差值相差很大,网络全局搜索能力差,陷入局部最小值。

图3 神经网络对10种塑料样品分类结果

图3(b)中是GA-BP神经网络分类结果。在BP神经网络算法基础上,利用遗传算法对网络的权值和阈值进行全局搜索。遗传算法中种群个体编码长度为288,算法迭代次数为50次,种群规模为30个,交叉概率Pc=0.5,变异概率Pm=0.2。将训练集放入遗传算法中不断的进行迭代,直到满足误差要求。然后将权值和阈值解码出来,放到BP神经网络框架中,对测试集进行分类。结果如图3(b)所示,可以看出有3个PTFE被错误分类成PS,网络的识别精度为99.25 %。图4(b)中,网络训练到56步后MSE趋于稳定,但是网络此时的精度为0.0029929,与实际设置的网络误差接近,网络全局搜索能力变强,不容易陷入局部最小值。

图4 神经网络训练步数

图5(a)中是SVM的分类结果。利用径向核函数(Radical basis function,RBF)作为SVM的核函数,并且使用MATLAB2016b软件中自带SVM工具箱对惩罚函数c和径向可变参数g进行优化,模型参数优化后得到测试集分类结果如图5(a)所示:有3个PA-6塑料样本被判为PC塑料样本;有9个PMMA塑料样本被错判为PU;SVM模型对PA-6塑料样本识别精度92.5 %;SVM模型对PMMA塑料样本识别精度77.5 %;SVM模型对10种塑料样本的正确识别率为97 %。图6(a)中,可以看出SVM模型,最佳参数c=1.7411和g=1,c和g的值在三维空间中呈现“帽子型”结构,模型在低维空间中耗费大量时间寻找最佳参数,造成模型在高维空间中超平面的划分,会出现c和g的值偏差过大,模型分类精度下降。

图5 支持向量机对10种塑料样本分类结果

图5(b)中是GA-SVM的分类结果。在SVM基础算法的框架上,用遗传算法代替MATLAB2016b工具箱对参数c和g做最优搜索。其中,遗传算法的种群个数为20个,种群迭代次数为40次,交叉验证参数为15,参数c的变化范围默认为(0,100],参数g的变化范围默认为(0,100]。模型参数优化后测试集的分类结果如图5(b)所示:有8个PMMA塑料样本被错判为PU;SVM模型PMMA塑料样品识别精度为80 %;SVM模型对10种塑料样本的正确识别率为98 %。图6(b)中,可以看出GA-SVM模型,最佳参数c=0.5和g=1.3195,c和g的值在三维空间中呈现“阶梯状”结构,模型在低维空间中耗费少量时间寻找最佳参数,在高维空间中获取模型中最佳的参数c和g组合值,提高分类精度,同时降低模型在低维空间中重复寻找c和g组合值,减小建模时间。

图6 两种SVM最佳参数寻优过程

3.3 对比分析

表3为4种预测模型对预处理数据分析结果。

表3 四种预测模型分析结果

(1)BP神经网络直接对测试集进行分类,错误识别个数为6个,但是由图4(a)可以得出模型训练步数少,此时网络进入局部最小值。这是由于训练样本集过少,网络训练不充分,造成模型识别精度不高。GA-BP神经网络错误识别个数为3个,建模时间为3.4 s,错误识别率下降。利用遗传算法全局搜索的特性,避免模型进入局部最小值,提高模型的识别精度,同时又可以克服因数据集不足,造成训练不充分的缺点。

(2)SVM模型和GA-SVM模型的首次建模时间分别为171.5 s和120.5 s,因为模型将整个c和g的定义域都遍寻一次,最后得出最佳的c和g,将得到的最佳c和g保存到模型中,此时模型的识别时间仅为1.5 s。但是SVM和GA-SVM的错误识别率普遍比BP和GA-BP的高,因为SVM为升维算法,样本集到达一定数量、维数较高时,需要的分类超平面精度更高,模型建模时间更长,因此识别精度与GA-BP神经网络存在一定的差距。

4 结 论

利用LIBS技术采集10种塑料样品数据,在空气中获取1000组光谱,提取14种特征谱线,结合BP神经网络、GA-BP神经网络、SVM和GA-SVM实现对10种塑料样品分类研究。结果表明,遗传算法可以极大避免BP神经网络进入局部最小值,提高模型的识别精度。遗传算法可以避免SVM在同一纬度重复搜索c和g值,因为原始数据维数高,SVM和GA-SVM都是升维过程,建模时间过长,识别精度与GA-BP神经网络存在一定的差距,因此SVM和GA-SVM不太适合处理维数过高的样本集。研究结果为今后基于LIBS技术的塑料样本分类识别等决策问题提供依据和参考。

猜你喜欢

谱线光谱塑料
“羲和号”首次获得三种太阳谱线轮廓
基于三维Saab变换的高光谱图像压缩方法
依据不同波段光谱诊断闪电回击通道温度*
高光谱遥感成像技术的发展与展望
基于彩色CCD的棱镜摄谱实验数据处理
塑料也高级
塑料的自白书
塑料
基于GPU的高光谱遥感图像PPI并行优化