APP下载

多目标桥梁劣化因果分析方法∗

2021-11-08胡维迪张涵宇

计算机与数字工程 2021年10期
关键词:置信度遗传算法关联

胡维迪 王 炜 何 欣 张涵宇

(云南大学软件学院 昆明 650500)

1 引言

桥梁劣化因果分析就是找出影响桥梁健康状况较大的属性以及属性组合。随着交通数据的完备,人们提出了许多数据驱动的桥梁等级状况预测方法。如使用马尔可夫链[2~3]、人工神经网络(ANN)[4~5]、模糊技术[6]、回归分析[7~8]。这些模型将桥梁数据转化为不同的特征,并依据这些特征进行预测。目前,对桥梁劣化因果的分析方法,存在选取的桥梁属性较少为单目标或几个目标,单目标即使用与桥梁健康状况相关的一个属性进行分析,比如只考虑桥梁建成年限[9],只考虑温度[10]。多目标即使用与桥梁健康状况相关的多个属性进行分析,比如考虑桥梁的材料、交通流量和降雨等环境因素[13~14],使用多目标桥梁劣化分析更能反映出桥梁各个属性之间对桥梁劣化的影响。但这些方法对实验数据要求较高,如马尔科夫链方法需要桥梁的历史数据满足等时距和时间跨度较大的数据,回归方法需要将桥梁数据都转化为数值型数据等等。

数据挖掘是从市场交易中发现知识的最有用的工具,其最重要的应用之一是发现关联规则,从中找到两个或多个变量的取值之间存在某种规律性。大多数关联规则算法基于Agrawal等提出的方法[11~12]。

该文采用关联规则算法,对实验数据要求较低,能处理任何类型的数据,能清晰反映桥梁各个属性间的关联因果关系。但是,关联规则算法在高支持度和高置信度下,会产生关联规则较少及无关联规则产生问题;在相对低支持度和低置信度下,会产生的大量关联规则和一些误导关联规则问题,都影响着关联规则的质量和实验结果的准确性。

针对以上问题,提出了一种多目标桥梁劣化的因果分析方法,在关联规则挖掘算法的基础上引入遗传算法和灰色关联分析方法对云南省亚热带季风气候地区桥梁进行了分析。

2 背景知识

多目标桥梁劣化因果分析抽象如下。目的是找出对于桥梁健康影响较大的属性,设xi、xj表示桥梁相关的属性值,找出后项集分别含有1类桥、2类 桥 等 关 联 规 则,{x2,x3,…,xi}→{1类,…}、{x5,x6,…,xj}→{2类,…}、{x3,x5,…,xi}→{3类,…}等等。

2.1 Apriori算法

设I={i1,i2,…,im}是由m个不同项目组成的集合,每个ik称为一个项目。集合I称为项集。长度为K的项集称为K-项集。设D={t1,t2,…,tn}是数据库事务的集合。设X是一个项集,事务T包含X。

若项集A⊆I,B⊆I,并且A∩B=∅,则A→B的蕴含式称为关联规则,其中A称为规则的前项集,B为规则的后项集。关联规则挖掘就是发现A→B的蕴含式。

关联规则A→B的支持度指在所有事务中同时含有A和B的概率,记为Sup(A∪B),公式为

式中,|D|表示数据库D的全部事务数。

关联规则A→B的置信度指当出现项集A的全部事务数时出现B的概率,记为Cοnf(A→B),公式为

项集X支持度不小于用户设定的最小阈值,则称X为频繁项集。Apriori算法是挖掘频繁项集和关联规则的数据挖掘算法。

2.2 遗传算法

遗传算法最早由John·Holland教授提出,他通过观察生物进化过程提出了遗传算法的原型[15],遗传算法是一种通过模拟自然进化过程搜索最优解的方法。图1为遗传算法的流程图。

图1 遗传算法的流程

2.3 灰色关联分析

1982年我国学者邓聚龙教授发表第一篇中文论文《灰色控制系统》标志着灰色系统这一学科诞生。在社会系统、经济系统等抽象系统里,包含有多种因素。想要知道这些因素哪些是主要的,哪些是次要的,哪些影响大,哪些影响小,哪些需要抑制,哪些需要发展,灰色关联分析能够很好地解决。

3 提出改进方法

针对Apriori算法挖掘关联规则对支持度和置信度难以确定的问题,使用了遗传算法来解决。对遗传算法中复杂的多目标适应度函数求解问题中,使用灰色关联分析方法来解决。三个算法协同进行以实现最终目标,即更高的关联规则质量与可靠性。图2为整个算法的执行流程。

图2 算法流程

3.1 适应度函数的确定

文献[1]中,Qodmanan等提出了新的适应度函数用于挖掘出支持度和置信度较高的规则,对关联规则A→B,公式如下:

兴趣度用于衡量规则的新奇性,关联规则挖掘最要的目的就是找到一些隐藏的信息,在文献[14]中对兴趣度做了如下定义:

对于理解度函数,关联规则后项集含有桥梁状况等级之外,其他属性尽可能少,此外,为了便于理解和阅读,前项集中应不含有较多的属性,定义理解度的公式如下:

式中,|A|、|B|分别表示前项集和后项集属性的数量。

3.2 灰色关联分析解决多目标适应度函数优化问题

灰色关联分析的步骤:

1)依据分析目的确定分析指标体系,收集分析数据。

其中m为指标的个数,i=1,2,…,n。

2)确定参考数据列:可以以各指标的最优值(或最劣值)构成参考数据列,或者根据评价目的选择其它参照值。即:

3)对指标数据进行无量纲化。经无量纲化后的数据序列矩阵如下:

4)逐个计算每一个被评价对象指标序列(比较序列)与参考序列对应元素的绝对差值。

|x0(k)-xi(k)|(k=1,…,m,i=1,…,n)n为被评价对象的个数)。

6)计算关联系数。

式中k=1,…,m。其中ρ为分辨系数,0<ρ<1。

当用各指标的最优值(或最劣值),构成参考数据列计算关联系数时,计算方式为

其中,k=1,…,m。

7)计算关联序:以反映各评价对象与参考序列的关联关系,记为

8)若各指标在综合评价中所起的作用不同,可对关联系数求加权平均值即:

式中,k=1,…,m。其中Wk为各指标的权重。

将上节中确定的3个分目标函数以序号形式表示:分目标1,分目标2,分目标3。将多目标函数的分目标数值看作是3个指标的观测数据。把挖掘出的n个关联规则进行编码后得到了设计空间的设计变量的n个取值点,得到多目标函数序列构成的n个待检指标序列。将多目标函数优化转化为单目标函数的优化问题,数学模型为

式中,X*表示设计空间的一个最优解,使灰色关联度函数G(X)在满足特定的约束条件下达到最大值F(X*),G0j(X)表示待检序列与理想最优序列的灰色关联度。

最优解构成理想的最优序列。

对设计变量的n个取值点,分别算出3个分目标的函数值,形成待检序列。

其中i=1,2,…,n。分别计算出n个待检序列与最优序列的灰色关联序r i,i=1,2,3。由式(9)定义适应度函数如下:

由文献[1、16~17]取值情况,本文中,我们取w1=3,w2=2,w3=1。

3.3 遗传算子的选择

遗传操作是遗传算法的重要组成部分,包括选择、交叉、变异三个步骤:

1)选择算子。选择用来实施适者生存的原则,选择算子的作用效果是提高了群体的平均适应度。实验使用了传统的轮盘赌选择算子。

2)交叉算子。交叉算子是产生新个体的主要方法,决定了遗传算法的全局搜索能力。实验使用了两点交叉操作,且交叉概率为0.9。

3)变异算子。变异算子只是产生新个体的辅助方法,决定了遗传算法的局部搜索能力。实验采用基本的变异算子,变异的概率设为0.1。

4 实验

运用云南省公路桥梁数据来验证本研究所提出的方法。

4.1 实验数据

实验数据由云南省交投集团公路建设有限公司提供,包含了云南省各个地区的桥梁数据。将云南省按气候划分为温带季风气候、亚热带季风气候和热带雨林气候。针对亚热带季风气候地区的桥梁历史数据进行挖掘分析,使用Python语言挖掘工具,由于桥梁数据中三类桥几乎没有,所以实验中只考虑一类、二类桥。

桥梁相关数据包括下穿通道名等19个属性与桥梁等级状况,共2794条数据。数据格式如表1所示。

表1 实验数据格式

上部构造-形式空心板梁刚构上部构造-材料上部_钢筋混凝土上部_预应力混凝土下部构造-形式重力式桥台柱式墩重力台T型墩下部构造-材料下部_钢筋混凝土下部_钢筋浆砌混凝土下部构造-基础形式扩大基础摩擦桩基础伸缩缝类型CD-60型钢伸缩缝桥梁类型小桥中桥支座形式板式橡胶支座矩形板式橡胶支座地震动峰值加速度系数0.05g~0.1g 0.4g年平均气温15℃~25℃15℃以下最冷月平均最低气温2℃以下5℃以上最热月平均最高气温25℃以上25℃以下年平均降水量1000mm以下1000mm~1500mm雨天天数1000d~1300d 1300d~1600d雪天天数五天以下五天以上总体状况评定等级1 2

对桥梁数据进行简单的数据分析。如图3。

图3 下穿通道与桥梁等级分布

4.2 对照实验

为了证明提出的实验方法的有效性,本文将Apriori关联规则算法作为对照实验。对处理后的桥梁数据,通过设定合适的支持度和置信度后,挖掘出一类桥、二类桥的相关关联规则。按Qodman⁃an等衡量支持度和置信度的方法(Sup_Cοnf),即式(3),分别求出一类桥和二类桥的平均Sup_Cοnf。再与我们的实验方法求出的一类桥和二类桥的平均Sup_Cοnf比较,Sup_Cοnf值越高,即挖掘的关联规则质量越高。

4.3 Apriori算法关联规则挖掘和编码

在实验室中设置最小支持度为0.2,最小置信度为0.4。经实验挖掘出形如A→B的关联规则,其中与一类桥相关的规则有162条,实验部分结果如表2,与二类桥相关的规则有63条,实验部分结果如表3。

表2 一类桥部分关联规则

表3 二类桥部分关联规则

对关联规则采用实数编码的方式,即每一条规则编码成一条染色体。对前项集A的每一个属性的属性值进行编码,每个属性X下的属性值赋值为i=1,2,3,…。若该规则里没有该属性值记为0。例如:形如规则(五天以下、十年桥、15℃~25℃、常规)->(1、25℃以上)经实数编码后为0,0,1,1,0,0,0,0,0,0,0,3,0,2,0,0,0,1,0,0,2,0。其中,前17个编码值为前项集,后5个编码值为后项集。

4.4 灰色关联分析及遗传算法实验

分别将一类、二类的相关规则编码后的染色体,作为设计空间的设计变量,用灰色关联分析求出每个分目标的关联系数。得到对一类桥、二类桥的分目标函数关联系数表4、表5。

表4 一类桥分目标关联系数

表5 二类桥分目标关联系数

一类桥的适应度函数为

二类桥的适应度函数为

实验中,采用了Geatpy提供的进化算法模板sga_real_temple。设置最大遗传代数为1000次。实验结果见表6。

表6 一类桥遗传算法实验结果

对于最优一代的控制变量我们解码后为(道路、十年桥、下部_钢筋混凝土、15℃~25℃、1000mm~1500mm)->(一类)。输出目标函数值最优的前10条控制变量经解码后进行分析。具体分析在实验结果分析中给出。

规则(板式橡胶支座)->(一类)不在出现在结果中,我们查看可知该规则的置信度为0.426。遗传算法确实能为我们消除一些弱关联规则。

对于二类桥,相关结果见表7。

表7 二类桥遗传算法实验结果

对于最优一代的控制变量解码后为(沥青混凝土、大桥、2℃~5℃、小于1000mm、五天以上)->(二类)。输出目标函数值最优的前10条控制变量经解码后进行分析。

规则(重力式桥台柱式墩)->(二类),属性值重力式桥台柱式墩不在出现在结果中。查看可得该规则的置信度为0.452。

最后,用对照实验即Apriori算法与提出改进的Apriori算法+灰色关联算法+遗传算法对比,对于一类桥的平均Sup_Cοnf,结果见表8。

表8 一类桥实验结果对比

对于二类桥的平均Sup_Cοnf,结果见表9。

表9 二类桥实验结果对比

经遗传算法和灰色关联分析方法后,Apriori算法挖掘的关联规则的可靠性有了进一步的提高。

4.5 实验结果分析

下面对亚热带地区桥梁健康状况影响较大的因素进行总结。其中,桥龄是影响桥梁健康的一个重要因素,桥龄增加会使桥梁出现一定程度的劣化情况;下穿通道为道路情况多为一类桥,而下穿通道为河流的情况时,桥梁多为二类桥;桥面铺装采用沥青混凝土时,桥梁多为二类桥,而采用水泥混凝土时多为一类桥,当然,要考虑到目前大多数通行量较大的公路桥梁采用桥面铺装材料为沥青混凝土;当桥梁类型为中桥时,桥梁状况多为一类,而当桥梁类型为大桥时,桥梁状况多为二类,这可能与它的通行量息息相关;对于上部构造材料选取预应力钢筋混凝土效果可能会更好;下部构造形式采用重力式桥台柱式墩时,效果要好;下部构造材料采用钢筋混凝土的效果要比浆砌片块石混凝土的效果要好;对于地震动峰值加速度系数,即云南省亚热带地区桥梁的抗震设防标准,系数为0.05g~0.1g、0.2g的桥梁健康状况要比系数为0.4g的桥梁健康状况要好的多;温度也是影响桥梁健康的一个重要因素,年平均气温更高,且最冷月平均最低气温更低,最热月平均最高气温更高地区的桥梁要比年平均气温更低,且最冷月平均最低气温更高,最热月平均最高气温更低地区的桥梁更健康;年降雨量的多少与桥梁的将健康状况成正相关,降雨量多的地区桥梁健康状况要更好;在中国天气网上将查阅到的2011年-2018年云南亚热带各地区的雨天天数、雪天天数进行分析,雨天天数在1000天~1300天多为一类桥,雨天在1300天~1600天时,桥梁多为二类桥,且雪天天气更多的地区,桥梁多为二类桥。

5 结语

为了更科学地进行桥梁劣化因果分析,首先对云南省地区的桥梁进行了气候带的划分。在进行了Apriori算法分析后,运用了多目标的遗传算法解决了Apriori算法对挖掘的关联规则进一步优化,确定了适应度函数,在针对多目标规划的求解问题中,改变了目前针对多目标关联规则挖掘中通常采用的自定义目标函数权重的方法,使用了基于灰色关联分析的求解算法,把多目标规划问题转变为单目标规划问题,有效地解决了这一问题。得到了实用的关于桥梁劣化因果关系的关联规则,在对云南省亚热带地区桥梁在修建时采取的材料、构造方式以及对桥梁的维修加固等提供了可靠的科学的辅助决策。经过遗传算法的多目标关联规则挖掘后,能删除一些弱关联规则与误导关联规则。但是,实验数据还不全,没有某些可能对桥梁健康状况影响较大的属性,如车辆通行量等。

猜你喜欢

置信度遗传算法关联
基于数据置信度衰减的多传感器区间估计融合方法
基于改进遗传算法的航空集装箱装载优化
一种基于定位置信度预测的二阶段目标检测方法
基于遗传算法的高精度事故重建与损伤分析
“一带一路”递进,关联民生更紧
基于遗传算法的临床路径模式提取的应用研究
基于遗传算法的临床路径模式提取的应用研究
奇趣搭配
物流配送车辆路径的免疫遗传算法探讨
智趣