APP下载

基于PSO-Hybrid的不锈钢应力腐蚀开裂敏感性预测模型

2023-08-20蔡起衡李光海曹逻炜

腐蚀与防护 2023年6期
关键词:贝叶斯不锈钢粒子

蔡起衡,李光海,王 强,曹逻炜

(1. 中国计量大学质量与安全工程学院,杭州 310018; 2. 中国特种设备检测研究院,北京 100029)

不锈钢因其优越的耐热、耐腐蚀以及力学性能,被广泛应用于核电、石化、建筑等行业。但在工程应用中,由于部分不锈钢设备长期处于恶劣的工作环境,其腐蚀失效引发的安全事故时有发生,尤其是破坏性大且易被忽视的应力腐蚀开裂(SCC)问题[1]。SCC是指材料在应力和环境联合作用下的失效开裂,SCC形成极其复杂且易突发,通常在没有明显迹象的低应力状态下发生,会造成灾难性的后果[2]。因此,研究并预测SCC具有重要意义,其结果能够警示企业采取相应的安全措施,减少事故发生,保卫国民生命和财产安全。

从20世纪60年代起,SCC逐渐成为国内外学者研究不锈钢材料的重要方向,相较于基于裂纹扩展机理提出的模型,如滑移氧化膜破裂模型、形变/氧化交互作用模型、耦合环境断裂模型等[3],机器学习凭借其无需确切的物理模型、无需厘清各因素间的复杂关系等优点,成为SCC预测方法新的选择,有着良好的发展前景。

目前,机器学习虽已被国内外大量学者应用于腐蚀预测。骆正山等[4]将灰色关联分析(GRA)与随机森林回归算法(RFR)相结合,提出了基于GRA-RFR的油气集输管道内腐蚀速率预测模型;李易安等[5]将KPCA-ICS-ELM算法用于预测埋地管线土壤腐蚀深度;者娜等[6]提出KPCA-SVM模型,用于解决有限样本数据下工艺管道腐蚀速率的预测问题。然而,关于应力腐蚀预测的研究仍较少,特别是SCC敏感性方面,SMET等[7]采用四层神经网络预测304不锈钢在含氯离子溶液中的SCC敏感性;赵景茂等[8]则在前人的基础上提出了基于三层结构神经网络的SCC敏感性预测模型;郭浩等[9]提出了Elman反馈神经网络模型来定性预测不锈钢SCC行为;江鹏等[10]提出了PCA-SVM模型来预测煤矿井下锚杆应力腐蚀失效风险。以上研究均取得了不错的预测效果,但分析方法较为单一。因此可将不同流派、不同特点的机器学习算法结合在一起,探究其对SCC敏感性预测效果的影响。

本工作基于主成分分析(PCA)提取出影响不锈钢SCC敏感性的主要因素作为模型输入,将不同流派算法混合成Hybrid模型,并使用粒子群优化(PSO)算法进行优化,以期提高不锈钢SCC敏感性预测的准确度和稳定性。

1 PSO-Hybrid模型理论基础

在机器学习的发展历程中形成了五大流派,分别是符号主义、贝叶斯派、联结主义、进化主义和行为类推主义[11],每个流派都有其各自的核心思想以及相应的算法。

1.1 决策树

决策树(DT)是符号主义的代表算法,该算法虽然在小样本上表现良好、可解释性强,但易发生过拟合。因此为克服单一DT算法的缺点,本工作以DT为基础,引入了集成学习。所谓集成学习就是将多个弱学习器按一定的策略组成强学习器,相较于单一的弱学习器,强学习器往往有着更加优越的性能。Bagging和Boosting是集成学习中较为流行的两种算法[12]。

随机森林(RF)是基于Bagging算法,以DT为弱学习器的集成模型,由Leo Breiman于2001年提出[13]。在分类问题上,RF的核心思想是最终的输出由组成RF的多棵DT的预测结果以硬投票的方式决定,即少数服从多数,其具体模型结构参照图1。RF的优点是不易过拟合且泛化能力强,计算速率快,但每棵树对最终结果的影响权重相同,可能会负优化预测效果。

图1 随机森林模型结构

与Bagging算法的并行理念不同,Boosting算法中的弱学习器是按顺序串行生成的,且在生成每个弱学习器时都会根据上一个弱学习器的表现来不断更新样本数据与该弱学习器所占的权重。CHEN等[14]在2016年首次提出了XGBoost,这既是Boosting思想的扩展,也是对梯度提升树算法的优化,其与梯度提升树最大的区别在于XGBoost将二阶导数和正则化项应用到目标函数中,以此减弱决策树易过拟合的缺点。

XGBoost算法的目标函数与正则化项如式(1)~(2)所示。

(1)

(2)

式中:Ω(f)为正则化项;T为基决策树的叶子节点总数;ωt为基决策树的第t个叶子节点的输出值;γ、ω为正则化项系数,属于超参数。

XGBoost被广泛应用于众多机器学习竞赛中并取得了不错的成绩,其优点可归纳为:(1) 效率高、耗能低;(2) 不易过拟合且泛化能力强;(3) 可调参数多,模型上升空间大。但XGBoost需要遍历数据集来寻找最佳分割点,若数据集过大则会耗费大量资源。

1.2 朴素贝叶斯

朴素贝叶斯(NB)分类算法是贝叶斯派最主要的算法[15],其基础是英国学者贝叶斯于18世纪提出的贝叶斯定理。贝叶斯分类算法按式(3)计算,arg max(f(x))函数的作用是当f(x)取得最大值时对应的变量x,即分类结果。

(3)

式中:K为类数;P(ck)为样本中ck类出现的概率;P(xi|ck)为在属于ck类的前提下,xj特征的条件概率。

NB分类算法简单,在小样本上也能有良好表现。但由于贝叶斯定理的前提假设是条件独立,因此当样本属性之间有关联时,会降低算法的分类性能。另外,NB分类算法的可调参数过少,模型的提升空间不大。

1.3 极限学习机

极限学习机(ELM)最早由黄广斌等[16]于2004年提出,是属于联结主义的基于前馈神经网络构建的算法,其网络结构见图2。ELM的优势在于学习速率快,泛化能力强。但是其在处理问题时为黑箱过程,可解释性差。

图2 ELM网络结构

1.4 支持向量机

支持向量机(SVM)源于统计学习理论,最早由VAPNIK和CORTES等于1995年提出,是行为类推主义的代表算法[17]。对于分类问题,其主要思想是找到能区分不同类别的最大边距超平面,图3为SVM处理二分类问题的过程,法向量ω和常量b分别代表超平面的方向与其到原点的距离。

图3 最大边距超平面

SVM善于处理小样本、高维度的数据集和非线性问题,泛化能力强。但在处理大样本和多类别的问题上有明显的不足。此外,参数和核函数的选择对SVM性能有较大影响。

SVM分类模型的函数如式(4)所示。

(4)

式中:n为维数;ai,ai*为拉格朗日乘子;b为拟合偏差;k(xi,xj)为SVM的核函数,如多项式、径向基和Sigmoid核函数等,本研究采用较常用的径向基核函数[18]。

1.5 粒子群算法

许多优化算法的灵感来源于自然界现象,PSO是一种模仿鸟群等群集行为提出的基于种群的优化技术,其核心是群体间的信息共享。

在标准PSO应用中,一群随机初始化的粒子,在搜索空间中不断运动,直到达到指定的迭代次数或其他终止条件[19]。群体中第i个粒子的速率和位置的迭代公式见式(5)~(6)。

vin=ωvin-1+c1r1[p(best)in-xin-1]+

c2r2[g(best)n-xin-1]

(5)

xin=xin-1+vin

(6)

式中:vin与xin分别为第i个粒子在第n次迭代时的速率和位置;ω为惯性权重因子;c1、c2分别为局部和全局的加速度因子;r1与r2是在[0,1]上的随机数;p(best)in为第i个粒子在第n次迭代时的历史最优解;g(best)n为整个粒子群在第n次迭代时的全局最优解。

本工作优化了标准PSO中的单一粒子适应度评估,分别选择了准确度(ACC)和马修斯相关系数(MCC)作为PSO的主、次适应度函数。在寻优过程中,不同粒子在满足相同ACC的前提下,会优先选择MCC最大的粒子作为最优解。以某次PSO优化SVM的过程为例,设置迭代次数为100,图4为粒子群在初始化、第50次与迭代结束时的位置及相应的适应度变化过程,具体参数变化见表1。

表1 PSO优化SVM前后参数对比

(a) 粒子群初始化

综合图4与表1的结果可知,SVM模型经PSO优化寻得最佳参数后,性能得到了显著提高,其在训练集上的ACC从0.86提高至0.90,MCC提高了0.08,在测试集上的ACC与MCC分别提高了0.18和0.11。PSO-Hybrid预测模型的具体流程见图5。

图5 PSO-Hybrid模型流程

1.6 模型评估指标

本工作选取ACC与MCC来验证PSO-Hybrid模型的可行性和优劣性。ACC能够直观地体现样本被分类正确的情况,MCC则是求解二分类中实际值和预测值之间的相关系数,其值范围为[-1,1],数值越接近1,代表模型的性能越好,计算公式见式(7)~(8)。

(7)

(8)

式中:T1为正样本预测正确的个数;T2为负样本预测正确的个数;F1为负样本预测错误的个数;F2是正样本预测错误的个数。

2 试验数据分析

2.1 数据预处理

本工作数据源于某奥氏体不锈钢经退火工艺后在高温水环境中发生SCC行为的71组试验数据[20]。数据集有4个参数:温度(241~350 ℃)、氯含量(0.001~3 000 mg/L)、氧含量(0.01~1 200 mg/L)以及是否发生SCC。

为了消除不同量纲对模型训练的影响,数据预处理是有必要的。根据电化学腐蚀的基本原理,离子含量对腐蚀行为的影响一般呈指数型[8],故先对氯、氧含量取对数,然后对所有样本作归一化处理,预处理后的部分样本数据如表2所示,按照7∶3的比例,随机抽取49组样本数据用于训练模型,剩下22组数据用于测试模型的性能。

表2 部分预处理后的样本(源于退火处理的不锈钢)

2.2 主成分分析

主成分分析的目的是降维,它能够在保留绝大部分样本有效信息的同时降低数据的维数。对于机器学习而言,通过PCA提取出能够代表整个数据集的主成分来训练模型,可以减少训练过程中耗费的资源,特别是对高维度、高数据量样本的降维效果更为明显。各主成分携带信息的多少与方差成正比,通常选取累积贡献率高于80%的因素作为主成分[18]。应用SPSS软件计算预处理后数据集的各成分特征值与贡献率,如表3所示。

表3 主成分分析

由表3可知,温度和氯含量的贡献率相近,氧含量的贡献率稍低一些。前2个成分的累积贡献率仅有71.33%,不满足高于80%的要求,因此数据集的3个成分都将用于训练模型。在金属腐蚀的相关理论中,奥氏体不锈钢在氯化物溶液和含氧高温纯水等环境中会发生SCC[1],温度、氯离子和溶解氧本身就是分析SCC不可缺少的因素,这也与PCA的结果相对应。

2.3 预测结果分析

为验证PSO-Hybrid模型的优劣性,循环代码20次,观察模型的表现。图6为未经PSO优化的Hybrid模型及其部分基模型在循环过程中的表现(以ACC为例),表4为所有模型评估指标的详细数据,方差越小代表模型表现越稳定。

表4 各预测模型的表现

图6 Hybrid与其部分基模型准确度对比

由图6和表4可知,未经PSO优化的Hybrid模型的ACC与MCC平均值分别为0.814和0.627,与组成Hybrid模型的5个基模型相比,其表现虽明显优于SVM模型,但与XGBoost模型的性能相近,最可能的原因是SVM模型较差的表现在一定程度上拉低了Hybrid模型的性能。

图7为经PSO优化前后Hybrid模型相应的评估指标值变化过程。综合图7与表4可知,PSO算法在一定程度上提升了RF、XGBoost与SVM模型的性能,其中SVM的性能提升尤为显著,其ACC与MCC平均值分别提高了0.087和0.123,且更加稳定。另外,PSO-Hybrid模型的ACC与MCC平均值分别为0.841和0.678,与表4中的所有模型相比,其表现最为优越。

图7 Hybrid与PSO-Hybrid模型评估指标值对比

2.4 模型验证

为进一步验证模型的可靠性,另外收集了38组敏化处理后的奥氏体不锈钢在高温水中的SCC行为试验数据作为验证集[20]。验证集有4个参数:温度(274~350 ℃)、氯含量(0.001~1 000 mg/L)、氧含量(0.01~200 mg/L)以及是否发生SCC,其数据预处理的步骤与上文相同,部分验证集样本数据见表5。

表5 部分预处理后的样本(源于敏化处理的不锈钢)

经检验,PSO-Hybrid模型在验证集上也有不错的表现,循环20次后ACC与MCC平均值分别为0.750和0.491。但其性能与前文的模型表现相比有明显的下降,原因可能是材料的处理工艺不同,该验证集数据源于敏化处理后的奥氏体不锈钢,而前文材料经退火处理,敏化处理能够让材料不太容易发生晶间腐蚀促进的SCC。因此,为进一步探讨模型的可靠性,随机抽取30%的验证集数据与前文的71条数据相组合,用于训练PSO-Hybrid模型,观察模型预测剩余70%验证集数据的表现。

结果表明,将验证集的部分数据组合用于训练PSO-Hybrid模型可有效提高其在验证集上的预测效果,其ACC与MCC平均值分别为0.833和0.672,这表明预测模型的建立是一个动态的、实时更新的过程,根据不同的材料、工艺、环境等影响因素,模型也需要实时调整来适应新的数据集,以取得良好的预测效果。图8为在循环过程中,将验证集的部分数据用于训练前后的PSO-Hybrid模型预测效果表现情况。

图8 部分验证集用于训练前后PSO-Hybrid模型的评估指标值对比

综上所示可知,Hybrid思想为二分类问题拓宽了新思路,本工作所提出的PSO-Hybrid模型为预测不锈钢应力腐蚀开裂敏感性提供了一种有效的分析方法,具有一定的可靠性与科学性。PSO-Hybrid模型是否适用于不同不锈钢还有待进一步研究。另外,依靠机器学习来建立优秀的预测模型需要一定量的数据支撑,但SCC行为的数据量较少,获取难度较高,未来若能建立腐蚀数据库,实现数据共享,将会对腐蚀预测的研究起到很大的推动作用。

3 结论

(1) 运用PCA提取出对不锈钢发生SCC影响较大的因素,包括温度、氯含量和氧含量,其中温度的影响最大。

(2) 通过对比预测值与实际值可知,Hybrid思想有一定的可行性和科学性,且经PSO优化后,Hybrid模型的平均准确度与马修斯相关系数各提高了3.3%与8.3%,表明PSO-Hybrid模型的预测准确度较高、稳定性好,这为预测不锈钢SCC敏感性提供了技术支撑。

猜你喜欢

贝叶斯不锈钢粒子
80t不锈钢GOR底吹转炉工艺设备改造
基于粒子群优化的桥式起重机模糊PID控制
你知道不锈钢中“304”的含义吗
基于粒子群优化极点配置的空燃比输出反馈控制
不锈钢微钻削的切屑形成与仿真分析
贝叶斯公式及其应用
基于贝叶斯估计的轨道占用识别方法
一种基于贝叶斯压缩感知的说话人识别方法
OCr18Ni9不锈钢的微小孔钻削
IIRCT下负二项分布参数多变点的贝叶斯估计