APP下载

基于部分可观察马尔可夫决策过程的机电装备动态可靠性评价方法

2016-10-13张红旗邵晓东胡祥涛

中国机械工程 2016年18期
关键词:信念机电可靠性

张红旗 邵晓东 胡祥涛

1.西安电子科技大学,西安,7100712.中国电子科技集团公司第三十八研究所,合肥,230088



基于部分可观察马尔可夫决策过程的机电装备动态可靠性评价方法

张红旗1,2邵晓东1胡祥涛2

1.西安电子科技大学,西安,7100712.中国电子科技集团公司第三十八研究所,合肥,230088

针对机电装备运行维护问题,提出了基于部分可观察马尔可夫决策过程(POMDP)理论的动态可靠性评价方法。该方法将可靠性动态演变看成POMDP问题,通过不完全观测到的设备运行信息(如噪声、温度、压力等),对可靠性状态进行估计,同时分析不同的维修行为对可靠性水平的影响规律,构建了基于状态转移的动态可靠性评价模型。然后,提出了以最小化维修成本费用和潜在故障危害为目标的维护策略制定方法,并通过案例分析验证了该方法的有效性,实现了机电装备动态可靠性的有效评价与维护策略的科学制订。

可靠性评价;维护策略;POMDP;机电装备

0 引言

机电装备集成了电、机、液等多种技术,其失效机理相当复杂,导致其可靠性难以评价[1-3]。一方面缺少有效的基础数据,可靠性预计结果误差较大;另一方面,在环境载荷持续作用下系统性能逐渐劣化,呈现出多态、时变和相关特性,常规的可靠性分析手段存在很多与工程不相适应的地方。因此,如何实时描述和获得机电装备运行状态和可靠性水平,即所谓的动态可靠性评价问题,是复杂机电装备运行维护过程中难题之一。

针对上述难题,国内外学者分别采用了动态贝叶斯网络(dynamic bayesian network,DBN)理论、部分可观察马尔可夫决策过程(partially observable Markov decision processes, POMDP)、Petri网等理论开展了广泛的研究[4-10]。其中,POMDP理论因能描述不确定环境下序贯决策问题而受到青睐,在机电装备运行状态估计、维修策略制订等领域中获得了广泛研究。刘繁茂等[1]利用POMDP理论,在基于设备状态的视情维修模式下,提出了以最小化折扣费用为目标函数的设备检测和维修的联合决策方法。黄飞腾等[2]基于系统的马尔可夫性假设,对系统状态进行适当的离散化处理,利用状态转移方法来描述系统的动态随机过程,再建立离散动态事件树求得系统故障概率。尚永爽等[11]针对部分可观测信息条件下的退化系统,提出利用部分可观测马尔可夫决策过程模型解决系统视情维修问题。实例研究表明,该方法可为保障人员提供科学的维修决策依据。但是,目前的大多数研究都存在模型过于简单、考虑因素单一等问题,与复杂环境下设备维修需求尚有差距。另外,由于POMDP存在“维度灾”问题,缺少有效的求解算法,也限制了该理论在机电设备运行维护中的工程应用。

本文将机电装备的动态可靠性问题看成部分可观察马尔可夫决策过程,通过不完全观测到的设备运行信息(如噪声、温度、压力、振动水平等),对机电装备进行动态可靠性评价,提出以最小化维修成本费用和潜在故障代价为目标函数的设备维护策略制订方法,为机电设备可靠性动态评价和维修策略制订提供有效途径。

1 POMDP概述

POMDP的基本框架可以表示为6元数组[12-13]。其中,S为有限状态集,一般采用离散形式表示,如S={1,2,…,n},n代表状态空间的规模;A为有限行动集,通常表示为A={1,2,…,m},m代表行动空间的规模;T为状态转移函数,S×A→S′表示在状态s下执行行动a后,状态转移为s′的概率为P(s′|s,a),也记为Ta(s,s′)或T(s,a,s′);R为立即收益函数,S×A→R意为在状态s下执行行动a后期望得到的立即收益,也称作报酬函数,用R(s,a)表示;O为有限观测集,通常表示为O={1,2,…,l},l代表状态空间的规模;Ω为观测函数,表示执行行动a后,状态为s′时观测到o的概率,即P(o|s′,a),也记为Ω(s′,a,o)。

1.1信念状态(BeliefState)

图1表示POMDP模型中的决策过程。由图1可知,信念状态是行动决策的直接依据,信念状态的转移具有马尔可夫性[14-15]。信念状态b′可以用贝叶斯公式进行更新[12-13],具体过程如下:

(1)

(2)

式(2)为归一化因子。根据转移函数T及观测函数Ω,就可以实现信念状态的转移更新。

图1 POMDP模型中决策过程示意图

1.2值函数

为了寻求最优行动策略,需要确定值函数。策略表示信念状态空间到行动集的映射:a=π(b)。对于一个初始状态s,按照策略执行动作得到的期望收益为[12-13]

V(s)=R(s,a)+γVfuture

(3)

(4)

其中,Vfuture为执行动作a之后的潜在长期收益;γ为折扣值,表示相对立即收益R存在一个时间折扣。

按照式(3)和式(4),初始信念状态b的最优值函数和最优策略可以表示为

(5)

(6)

t∈T

求解POMDP问题,就是要计算整个信念状态空间中每个信念状态上的最优值函数。受“维度灾”的影响,目前常采用的算法是基于点的值迭代算法(point-based value iteration, PBVI)。PBVI算法属于近似算法,只在信念状态空间部分点上进行计算,由两个步骤组成:①在给定的信念点集上更新值函数;②扩充信念点集。两个步骤交替执行,直到值函数收敛或者满足终止条件为止。

2 动态可靠性评价模型

机电装备的可靠性评价和维护,需要综合考虑装备的运行状态、资源和费用耦合问题。例如,设备某个组件的振动幅值随着时间而变化,反映了它可靠性水平在变化,维修策略也要相应变化。这些时变的因素需要综合在一起考虑,从而决定可靠性水平怎么样,何时维修,怎么维修,目标是在设备的可靠性和可用性可以接受的水平下,最小化装备检测维修费用和潜在故障代价。

2.1状态集、观测集与行动集

按照上节所述,POMDP模型需要确定系统的状态集、观测集与行动集。为了实现对机电装备可靠性评价,本文将可靠性水平看成系统状态。并假定在复杂工作环境下,系统可靠性水平的动态演变符合POMDP理论。

一般情况下,可靠性属于隐藏状态,需要借助观察或监测信息对其合理估计。工程中,一般是依赖设备的振动水平、噪声水平、温度等可观测信息来评估设备可靠性水平。比如,噪声水平长期维持在高水平,说明结构内部可能存在磨损等故障源,可靠性水平降低,需要进行拆机检修。POMDP 模型的观测集可以集成机器的性能参数和每个检测行动取得的多种诊断信息, 如某个时间噪声水平和振动信号的幅值。

不同可靠性水平需要采取不同的维修策略。设备如果高可靠,就只需简单维护;反之,则需要大修。不同的维修行为用于构建行动集,如维护、置换组件、置换机器、机器的连续运行或者检测等。

综上所述,假定某个系统的寿命历史能够模拟成一个离散时间的有限状态的马尔可夫过程,下面给出基于POMDP的动态可靠性评价模型定义:

状态集S={1, 2, 3, 4, 5},分别对应机电装备高可靠、可靠、亚可靠、次可靠、不可靠。

行动集A={1, 2, 3, 4},分别对应简单保养、普通维护、小修、大修。

假设一个机电系统有k个观测量,分别为O1、O2…、Ok,将每个观测量按照大小离散为5个水平,对应“低”“中下”“中”“中上”“高”。则观测集定义为:Oi={1, 2, 3, 4, 5},i=1,2,…,k。

2.2转移函数和观测函数

图2 可靠性水平状态转移示意图

状态转移函数Ta(s,s′)如图2所示,即假定当前系统状态为可靠,采取的行动集——维修策略是普通维护,则下一时刻系统状态(不可靠、可靠、高可靠)以一定概率发生转移。本质上,状态转移函数属于条件概率范畴,反映了维修行为对系统可靠性水平影响程度。大多数情况下,这种影响是正面的,但并不是完全百分之百的。因为设备固有的退化性质以及误操作等不确定因素,导致维修不可能回到初始正常状态。也就是说,即使采取了维修操作,设备的可靠性仍然是值得怀疑的。工程中,状态转移函数的确定需要依赖经验知识,是人工维修行为的一种智能化过程。

系统的观测函数Ω(s′,a,oi)=P(oi|s′,a),表示执行行动a后进入下一个状态s′时观测到oi的概率。显然观测函数构建了装备可靠性水平、观测信息和维修行为之间的逻辑关系。即维修行为越合理,可靠性水平越高,观测到的信息也是正向相关的。

由于系统有k个观测信息,因而对应着k个观测函数。按照式(1),信念状态由观测函数和转移函数共同决定和更新计算。因此,每个观测函数会对应一个信念状态,记为bi。本文通过加权方式,确定最终的信念状态:

比较两组患者Hb水平,术前差异无统计学意义(P>0.05),术后3d、7d时,研究组均高于对照组(P<0.05)。详见下表2:

(7)

式中,ωi为加权系数,且∑ωi=1。

工程中,需要综合各种观测信息对机电装备的可靠性水平作一个合理估计,不同的观测信息会导致估计值不同。当观测信息的可信度较高时,其权重自然要大些。同理,在根据式(4)和式(5)计算值函数时,首先分别计算不同观测函数对应的值函数,再加权求总的值函数,这里不再赘述。

2.3值函数

一般来说,机电装备有多个不同的维修和检测方法,其费用和效果都不相同。不当的维修行为会导致成本升高,且设备达不到最优运行状态。因此,合理的维修策略取决于每个时间点系统的可靠性水平。

本文综合考虑了维修成本和潜在故障危害,定义评价函数如下:

R(s,a)=f(s)+g(a)

(8)

其中,f为潜在故障危害代价函数,表示系统在当前可靠性信念状态下潜在的故障危害;g为维修成本函数,表示采取维修行为之后需付出的维修成本。将式(8)代入式(5)和式(6),即可获得最优维护策略。

3 案例分析

以某型号雷达天线旋转系统为例,该系统由轴承、齿轮、旋转轴、电机、传感器等零部件组成,主要失效模式为旋转运动部件的磨损、零部件的锈蚀卡死、结构疲劳变形、电机故障等。系统的可靠性水平可以通过噪声水平和振动水平进行判断,可靠性评价周期为1年。基于第2节所述,POMDP模型可以定义如下:

行动集定义为A= {1, 2, 3, 4}。其中,a=1表示简单保养,如紧固螺钉、加润滑、去锈渍等;a=2表示普通维护,需更换非关键件,如螺栓、线路、传感器等;a=3表示小修,需对电机、驱动器、轴承等设备进行检修;a=4表示大修,需更换关键件,如电机、轴承、齿轮等。

噪声观测集O1={1, 2, 3, 4, 5}。其中,o1=1表示低噪声,设备运行正常;o1=2表示中低噪声,设备存在润滑不良或安装松动;o1=3表示中噪声,设备可能存在些微磨损、变形或安装松动;o1=4表示中高噪声,设备可能存在磨损或变形;o1=5表示高噪声,设备可能存在较大磨损或变形。

振动观测集O2={1, 2, 3, 4, 5}。其中,o2=1表示低振动水平,设备运行正常;o2=2表示中低振动水平,转子些微不平衡、激励载荷或负载些微异常;o2=3表示中等振动水平,转子不平衡、激励载荷或负载异常;o2=4表示中高振动水平,转子较大不平衡、激励载荷或负载较大异常;o2=5表示高振动水平,转子严重不平衡、激励载荷或负载严重异常。

根据工程经验,假设状态转移函数和观测函数分别如表1~表3所示。表1中,a=1表示只需进行简单的日常保养,如果当前可靠性水平为高可靠(s=1),下一时刻可靠性水平的5个状态概率分别为0.99、0.01、0、0和0;如果当前可靠性水平为可靠(s=2),下一时刻可靠性水平的5个状态概率分别为0.05、0.75、0.20、0和0;如果当前可靠性水平为不可靠(s=5),下一时刻可靠性水平的5个状态概率分别为0、0、0、0.01和0.99。表2中噪声观测函数表示:如果当前设备是低噪声水平(o1=1),则当前可靠性水平的5个状态概率分别为0.95、0.04、0.01、0和0;如果当前设备是一般噪声水平(o1=3),则当前可靠性水平的5个状态概率分别为0.35、0.35、0.15、0.1和0.05;如果当前设备是高噪声水平(o1=5),则当前可靠性水平的5个状态概率分别为0、0.05、0.1、0.25和0.6。类似地,表3中振动观测函数表达了振动水平同机电装备可靠性水平之间的概率关系。按照式(7),假设振动和噪声观测函数的加权系数皆为0.5。

表1 状态转移函数

表2 噪声观测函数

表3 振动观测函数

评价函数定义如下:

R(s,a)=5s+1+10a

假设行动a分别为1、2、3、4的经济成本分别为10、100、1000和10 000;故障危害的代价主要由可靠性水平决定,对应s分别为1、2、3、4、5,付出的代价分别为25、125、625、3125和15 625。

设初始信念状态b(s)=(0.99,0.01,0,0,0),将上述设置代入到式(5)~式(7),可求得系统在不同信念状态b下最佳维修策略。以可靠性水平s=5为例,描述如下:①b(s)≤0.05,a=1表示当前系统处在不可靠状态的估计概率不大于0.05,采取日常保养策略;②0.050.45,a=4表示当前系统处在不可靠状态的估计概率大于0.45,采取大修策略。

在这种维修策略下,该雷达天线旋转系统可以持续工作18年。工程中,该雷达实际大修时间为服役15年后,表明本文提出的维修策略是合理的。

4 结语

本文针对机电装备运行维护问题,提出了基于POMDP理论的动态可靠性评价和维护策略制订方法。当机电装备动态可靠性问题被看成不确定环境下序列决策问题时,POMDP模型可以帮助发现最优维护策略。在构建动态可靠性评价模型时,重点讨论了状态转移函数、观测函数和评价函数等POMDP模型中的几个关键参数的定义。最后,针对某雷达旋转系统线进行了案例分析,结果表明基于POMDP的动态可靠性评价和维护策略制订方法是合理有效的,与工程实际情况相吻合。

然而,本文提出的动态可靠性评价和维护策略制订方法,仅仅考虑了一种理想的变化情况,对系统动态可靠性问题作了一些必要的简化。虽然模型具有一定的合理性和有效性,但是该模型仍然存在很多需要进一步改进的地方,比如细化状态的表示、在模型中加入其他决策评价方法、更合理的转移函数和观测函数获取方法、针对行动空间和观察空间庞大的问题提出更高效的POMDP近似算法等。

[1]刘繁茂,朱海平,邵新宇,等.状态不完全可观条件下设备检修策略研究[J].计算机集成制造系统,2009,15(8):1628-1632.

LiuFanmao,ZhuHaiping,ShaoXinyu,etal.InspectionandMaintenancePolicyofMachineBasedonPartiallyObservableMarkovDecisionProcesses[J].ComputerIntegratedManufacturingSystems, 2009, 15(8):1628-1632.

[2]黄飞腾,郁军,肖航.基于Markov状态转移的动态可靠性分析[J].海军工程大学学报,2002,14(6):80-83.

HuangFeiteng,YuJun,XiaoHang.DynamicReliabilityAnalysisBasedonMarkovStateTransition[J].JournalofNavalUniversityofEngineering, 2002, 14(6):80-83.

[3]SiuN.RiskAssessmentforDynamicSystems:anOverview[J].ReliabilityEngineeringandSystemSafety, 1994,43:43-73.

[4]EllisH,JiangMingxiang,CorotisRB.Inspection,Maintenance,andRepairwithPartialObservability[J].JournalofInfrastructureSystem, 1995, 1(2):92-99.

[5]CassandraAR.ASurveyofPOMDPApplications[C]//Proceedingsofthe3rdAnnualConferenceonUncertaintyinArtificialIntelligence(UAI-98).SanFrancisco,CA.,USA:MorganKaufmann, 1998:472-478.

[6]KuoY.OptimalAdaptiveControlPolicyforJointMachineMaintenanceandProductQualityControl[J].EuropeanJournalofOperationalResearch, 2006, 171(2):586-597.

[7]IvyJS,NembhardHB.AModelingApproachtoMaintenanceDecisionsUsingStatisticalQualityControlandOptimization[J].QualityandReliabilityEngineeringInternational, 2005, 21(4):355-366.

[8]HsuSP,ArapostathisA.SafetyControlofPartiallyObservedMDPswithApplicationstoMachineMaintenanceproblems[C]//ProceedingsofIEEEInternationalConferenceonSystems,ManandCybemetics.Hague,Netherlands:IEEE, 2004:261-265.

[9]胡祥涛,张红旗,林宁,等.基于动态贝叶斯网络的天线俯仰系统动态可靠性评估[J].电子机械工程,2014,30(6):22-26.

HuXiangtao,ZhangHongqi,LinNing,etal.ReliabilityAssessmentforAntennaPitchingSystemBasedonDynamicBayesianNetwork[J].Electro-mechanicalEngineering, 2014, 30(6):22-26.

[10]沈戈,苏春,许映秋.基于Petri网理论的动态系统可靠性建模方法研究[J].机械工程与自动化,2006,30(2):1-3.

ShenGe,SuChun,XuYingqiu.ResearchonDynamicSystemReliabilityModelingMethodBasedonPetriNetTheory[J].MechanicalEngineering&Automation, 2006, 30(2):1-3.

[11]尚永爽,许爱强,李文海,等.部分可观测信息条件下系统最佳检修策略分析[J].系统工程与电子技术,2012,34(4):749-753.

ShangYongshuang,XuAiqiang,LiWenhai,etal.AnalysisofOptimalInspectionandMaintenancePolicywithPartiallyObservedInformation[J].SystemEngineeringandElectronics, 2012, 34(4):749-753.

[12]胡祥涛,张红旗,李自成,等.基于部分可观测Markov决策过程理论的盾构推进载荷规划[J].机械工程学报,2014,50(21):84-91.

HuXiangtao,ZhangHongqi,LiZicheng,etal.POMDP-basedPlanningModelofDrivingForceDuringShieldTunneling[J].JournalofMechanicalEngineering, 2014, 50(21):84-91.

[13]MonahanGE.ASurveyofPartiallyObservableMarkovDecisionProcesses:Theory,Models,andAlgorithms[J].ManagementScience, 1982, 28(1):1-16.

[14]HuXiangtao,HuangYong’an,YinZhoupin,etal.DrivingForcePlanninginShieldTunnelingBasedonMarkovDecisionProcesses[J].Sci.ChinaTech.Sci., 2012, 55(4):1022-1030.

[15]PutermanML.MarkovDecisionProcesses:DiscreteStochasticDynamicProgramming[M].NewYork:JohnWiley&SonsInc,1994.

(编辑王艳丽)

Dynamic Reliability Assessment Method Based on POMDP for Electromechanical Equipment

Zhang Hongqi1,2Shao Xiaodong1Hu Xiangtao2

1.Xidian University, Xi’an,710071 2.CETC No.38 Research Institute,Hefei,230088

This paper focused on the operation and maintenance problems of electromechanical equipment, and proposed a new approach to assess the reliability and formulate the maintenance strategies based on POMDP theory. In the new approach, the dynamic reliability of electromechanical equipment was considered as an uncertain state which might be estimated by the monitoring informations (such as noise, pressure, temperature, vibration, et al.) according to POMDP theory. Furthermore, the influences of different maintenance strategies on reliability level of electromechanical equipment were investigated, and a dynamic reliability model was developed based on state transition. In order to plan the optimal maintenance strategy, an evaluation function was defined by minimizing the maintenance costs and the lost of faults. The experimental results confirm that the new approach based on POMDP is reasonable for electromechanical equipment, and possesses application and dissemination values.

reliability assessment; maintenance policy; partially observable Markov decision process(POMDP); electromechanical equipment

2015-05-04

国防技术基础项目(JSZL2014210B001,JSBZ2014210A005,JSBZ2014210B007);国防基础科研项目(A1120131044)

TB114.3

10.3969/j.issn.1004-132X.2016.18.012

张红旗,男,1975年生。中国电子科技集团公司第三十八研究所研究员、西安电子科技大学机电工程学院博士研究生。主要研究方向为数字化设计与制造、可靠性工程。发表论文20余篇。邵晓东,男,1970年生。西安电子科技大学机电工程学院教授、博士研究生导师。胡祥涛,男,1981年生。中国电子科技集团公司第三十八研究所高级工程师。

猜你喜欢

信念机电可靠性
为了信念
发光的信念
简述机电自动化在工程机械制造中的应用
高速公路站级机电维护管理模式创新探讨
合理使用及正确测试以提升DC/DC变换器可靠性
信念
机械制造过程中机电自动化的应用
GO-FLOW法在飞机EHA可靠性分析中的应用
5G通信中数据传输的可靠性分析
论如何提高电子自动化控制设备的可靠性