APP下载

基于PDS的铁路信号冗余结构危险失效概率计算方法

2020-04-26张宏扬王龙生梁志国关恽珲

铁道标准设计 2020年4期
关键词:失效率框图铁路信号

张宏扬,段 武,王龙生,梁志国,关恽珲

(1.中国铁道科学研究院研究生部,北京 100081; 2.中国铁道科学研究院集团有限公司通信信号研究所,北京 100081)

近年来,随着列车速度的不断提高,信号系统的复杂度也随之提升,导致其风险识别与控制难度大增,为了保证设备的可靠性与安全性符合相关标准,新研发的产品在上道使用之前,必须通过安全完整性认证(Safety Integrity Level SIL),其中的关键是危险失效概率的计算。

针对此类问题,许多学者做了大量研究:文献[1]使用ALARP模型风险分析方法对ATP(列车自动防护)系统的安全完整性等级进行了定性分析,然后采用IEC61508中的公式定量计算了其中冗余结构的失效概率[1],ATP与工业控制领域的“紧急停止”系统类似,可以离线测试,但这与典型的铁路信号地面安全苛求系统(如联锁、列控中心等)不同,因此该方法并不能完全适用于铁路信号地面控制系统;文献[2]提出了一种共因失效的分析方法,以故障树与门作为分析对象,结合β因子法和独立性分析法对各种故障情况进行分析,无需建立复杂的共因失效模型,简化了分析和计算过程[2],但主要是针对系统某模块的共因失效,尚未全面考虑整个系统级的共因失效;文献[3]利用故障树分析法对全电子三相交流转辙机控制模块进行可靠性与安全性的计算与评估,结果表明该模块完全满足信号系统对高安全性的要求[3],但分析过程并没有全面考虑共因失效,只是简单对故障树的结果进行可靠度估计,就得出了高安全性的结论,可能过于理想;文献[4]采用故障树分析法和马尔科夫方法对土耳其某线路联锁设备相关组件的功能安全进行了评估,并在安全性相关的计算中考虑了平均修复时间MTTR[4],但如联锁、列控中心等连续工作的地面信号设备,考虑维修时间便意味着停机或降级,这会影响危险失效概率的计算精度;文献[5]针对ZPW-2000A轨道电路的安全性进行了定量计算,其中利用贝叶斯网络分析了在考虑共因失效和不考虑共因失效情况下,系统失效概率的变化,结果表明共因失效的引入使得计算结果更加准确[5],但文章不足之处是没有针对不同冗余结构对共因失效的影响程度进行区分。

通过以上分析可以看出,在铁路信号设备安全性指标的计算过程中,常忽略共因失效及不同冗余结构对安全性的影响,使得计算结果偏于保守,虽然最新版的IEC61508中提出了结构修正因子用来区分共因失效对不同冗余结构的影响,但对于该参数如何取值并没有给出相关的解释或说明[6],而且IEC61508中的方法并不完全适用于铁路信号领域,因为这类方法所面向的工业过程控制系统与铁路信号地面控制中心类的安全苛求系统之间存在差异性。

针对以上问题,引入由挪威工业科技研究院SINTEF开发的PDS方法,该方法基于IEC61508中的部分理论,针对铁路信号系统提出了新的公式用于定量计算系统的PFH,该方法针对共因失效对系统危险失效概率的影响给予了更高的权重,符合现场设备的实际使用情况。首先介绍了铁路信号典型的3种冗余结构,给出PFH的概念,然后重点分析共因失效对PFH的影响问题,其中改进了常用的β参数模型,用来区别不同冗余结构对共因失效的影响程度,以此构建冗余结构可靠性框图,最后详细分析了PDS方法的应用流程,其中重点分析了结构修正因子CMooN的取值问题,以双机热备、二乘二取二、三取二方式的冗余结构为例,采用该方法计算其PFH,并在不同共因失效因子β下与IEC61508中方法计算的结果进行比较。

1 铁路信号冗余结构介绍

冗余作为技术术语,狭义上多含有备份的意思,是用于提高可靠性和可用性非常有效的手段,即通过一个或多个额外的(通常是同等的)方法容错。因为计算机硬件成本的降低和性能的提升及安全苛求系统的复杂性日益增加,以及社会发展对可靠性特别是安全性的要求持续提高的原因,导致采用多重冗余、特别是整体多重系冗余结构方式的铁路信号计算机控制系统日益普遍[7]。

IEC61508中以MooN(M≤N)表示在N个独立完成相同功能通道中的M个通道,系统功能完好的条件为:N个通道中由M个及M以上个完好。在此定义下,MooN在形式上可代表一大类冗余结构,常见的双机热备、二乘二取二和三取二冗余,亦都可以统一纳入这种表达方式,分别表示为1oo2,2×2oo2和2oo3[7]。如图1所示。

图1 典型冗余方式基本结构

其中,1oo2作为最基本的可靠性冗余结构,由两个完成相同功能并具有备份关系的基本单元构成,系统在某系出现故障时可以实现自动切换(该切换不对系统工作的连续性产生明显影响),且只要其中一个不失效时,就能够执行规定的功能;2×2oo2是二取二安全性和双机热备可靠性这两种目的完全不同、但具有很强互补性的典型冗余结构的组合,其中的二取二,在基于一致性比较原理实现安全冗余的同时,亦为其上一级的双机热备冗余提供了具有极高覆盖率的故障检测判据,使其可靠性冗余更加有效且易于实现;2oo3是基于表决原理的、兼顾了可靠性和安全性的典型多重系冗余结构,它由3个完成相同规定功能的基本单元或子系构成,其输出符合多数表决原则(输入一般也是如此),能够屏蔽任何一个单子系的任何可识别或不可识别的故障,使系统的整体功能在单子系故障时能够保持正常。

2 铁路信号冗余结构PFH计算

首先介绍失效的分类进而给出PFH的定义,然后讨论共因失效对PFH的影响,并分析上述3种冗余方式中共因失效的作用问题,以此建立包含失效类别的系统可靠性框图,最后介绍PDS方法,并将其引入铁路信号冗余结构PFH的计算中。

2.1 PFH定义

失效从机理特征的角度可分为系统性失效和随机硬件失效两大类,其中系统性失效是在系统/子系统/设备的规范、设计、制造、安装、运行或维护阶段中因内在缺陷引起,是在生命周期的各阶段中由人为错误导致的失效,所以一般认为系统性失效是无法进行定量度量及预计的,而随机硬件失效是完好的产品在运用中因多种不确定因素的诱发而随机出现的物理故障所导致的,是可能随时发生、却无法预知及控制其何时发生的失效(譬如,微电子器件因高能粒子的撞击而产生的失效),因为具有随机特性,故其失效率可以用数学统计方法进行定量度量和预计[8],其量化指标被称作“硬件平均失效概率”,该指标又分为“仅在要求时的危险失效概率PFD(Probability Of Dangerous Failure On Demand,PFD)”和“每小时危险失效概率PFH”[8]。

上述指标反映的都是危险失效率,其区别是应用的操作模式不同,与PFD指标相对应的操作模式是低要求模式,在这种模式下,对一个安全相关系统提出操作要求的频率不大于每年一次;与PFH指标对应的是高要求模式或连续模式,在这种模式下,对安全相关系统提出操作要求的频率大于每年一次或安全功能是连续执行的[9]。由于信号系统是要求连续工作的,属于“连续要求模式”,因此其硬件失效的量化指标为每小时危险失效概率(PFH)。

2.2 考虑共因失效的系统可靠性框图建立

2.2.1 共因失效介绍

共因失效(Common Cause Failure, CCF)是指由于某种共同原因造成的多个产品的失效,即多个产品的失效是由于同一原因引起的,它们可能是一个系统故障引起的(例如:设计或规范失误)或者由一个外部应力导致一个早期的随机硬件失效引起的(例如:闪电或地震事件、维护中的操作错误等),或者是上述两种情况共同导致的[9]。存在共因失效的系统中若干个单元同时失效,单元正常或故障状态之间彼此统计相关,给系统可靠性、安全性分析带来了极大困难[10-11]。

信号系统的组合式故障-安全以及反应式故障-安全的结构采用了大量冗余结构,各通道的相似性使其具有相同或相似的故障集而较易受到CCF的影响,从而可能失去防护效果。因此,共因失效是导致铁路微电子复杂多重系信号系统失效的重要因素,在进行安全评估时,若不考虑其对冗余结构的影响程度,可能无法准确估算系统安全指标,造成评估结果过于理想,进而埋下人身和财产安全隐患[12]。所以在信号设备安全性的相关分析中考虑 CCF的影响是非常有必要的。

2.2.2 多β参数模型

自20世纪70年代以来,国内外有关学者提出了许多描述共因失效的方法,如β因子模型、基本参数模型(BP)、混合参数模型(MGL)、α因子模型以及平方根模型等[13-14]。其中,β因子模型、MGL模型、α因子模型是应用于概率风险评价(PRA)的模型,这些模型的构造易于理解还能保守估计系统的失效概率,因此至今仍被广泛应用于共因失效的研究中。在β因子模型的基础上,引入反映不同冗余结构对共因失效影响的参数CMooN,构成多β参数模型。

β因子模型假设系统失效QT由独立失效因子QI和共因失效因子QC组成,即QT=QI+QC

参数β被定义为共因失效因子QC在系统失效QT中所占的比值[15],即

QC=βQT→

QI=(1-β)QT

(1)

参数β的取值范围可以由0取到25%,具体的取值需要考虑具体系统结构的特点,根据专家经验,在硬件失效领域,参数β的取值参考范围为[0.1%,10%][16]。但目前多数研究对于任意MooN冗余结构,所采用的β因子数值都是相同的,并没有考虑到不同冗余结构对共因失效的影响程度是有差别的,因此普通β因子模型对于不同的冗余结构并不能很好地描述共因失效问题,故这里引入修正因子CMooN,构成更具一般性的多β参数模型,以区分不同冗余结构对共因失效的影响程度,即对于MooN的冗余结构,多β参数为

β(MooN)=β·CMooN

(2)

如果N个冗余设备的失效率均为λ,那么MooN冗余结构的共因失效率为

λMooN,C=CMooN·β·λ

(3)

2.2.3 可靠性框图建立

计算系统危险失效概率时,需要画出系统硬件的可靠性框图,介绍常规可靠性框图的相关理论,然后转换为包含失效类别的可靠性框图。

(1)串联系统的可靠性模型

一个系统由N个单元R1,R2,…,Rn组成,当每一个单元都处于正常状态时,系统才能够完成指定功能,即只要其中任意一个单元失效时,系统就会失效,称这种系统为串联系统,其可靠性框图如图2所示。

图2 串联系统的可靠性框图

因为串联系统不存在冗余通道,而本文讨论的是共因失效对冗余结构的影响,因此假设串联系统不存在共因失效,所以将其转为包含失效类别的可靠性框图,如图3所示:

图3 包含失效类别的串联系统可靠性框图

(2)并联系统的可靠性模型

一个系统由N个单元R1,R2,…,Rn组成,只要其中有一个单元处于正常工作状态,则系统就可以完成指定功能,即只有当所有单元均失效时,系统才会失效,称这种系统为并联系统。其可靠性框图如图4所示。

图4 并联系统的可靠性框图

因为并联系统就是典型的1ooN冗余结构,故系统存在共因失效,所以将其转为包含失效类别的可靠性框图如图5所示。

图5 包含失效类别的并联系统可靠性框图

(3)冗余结构可靠性框图建立

①1oo2

如图1(a),双机热备结构由2重系构成,当双系中任意一系出现故障,系统会自动切换到另一系(备系)保证系统处于可用状态,即只要其中一个CPU不失效,系统就能执行正常功能,当CPUA失效,CPUB也失效或者两者发生共因失效时,系统失效,这符合典型并联系统的工作模式,由此给出1oo2的可靠性框图如图6所示。

图6 1oo2可靠性框图

②2×2oo2

如图1(b),二乘二取二结构由2重系组成,每系采用双CPU且各自执行全部处理功能,两系之间通过高速通信通道交换信息,主系在每个处理周期的起始时刻向从系发出同步信号,令从系与主系保持周期同步,实现2重系的同步和切换。由其工作方式可知,单系中任何一个CPU失效,会导致本系不可用,此时切换单元会立刻切换到另一系,保证系统处于可用状态,当两系各自CPU均有失效出现(例如CPUA1失效、CPUB1失效或CPUA2与CPUB2出现共因失效),会导致系统失效,此时系统自动导向安全状态。

由以上分析可知,双系中任何一个CPU失效会导致本系不可用,两系之间的共因失效会导致系统不可用,由此建立二乘二取二系统的可靠性框图如图7所示。

图7 2×2oo2系统可靠性框图

③2oo3

如图1(c),三取二结构由3个子系构成,在任何时刻,只要三者之间任意两个CPU处于正常工作状态,那么整个系统就可用,即系统具备容错功能。当两个及以上CPU失效或者同时发生共因失效时,系统失效,因此给出2oo3的可靠性框图如图8所示。

图8 2oo3可靠性框图

2.3 基于PDS的冗余结构PFH计算

PDS方法由挪威工业科技研究院SINTEF开发,是定量估计安全相关系统安全不可用性的方法,在石油、工业、铁路等领域均有广泛应用,该方法复杂度较低,有助于降低数学运算量[17]。本节首先介绍IEC61508中定量计算PFH方法的不足之处,然后介绍PDS方法并将其引入铁路信号冗余结构危险失效概率的计算中,以此构建简洁高效的复杂多重系信号系统的危险失效概率计算模型。

2.3.1 IEC61508中方法与PDS方法的差异性

IEC61508-6中提供的定量计算方法,虽然也考虑了共因失效的影响,但在应用时会存在以下问题:

(1)IEC 61508只给出了几种常见冗余结构的计算公式,对于更为复杂的结构,缺乏相关的指导;

(2) IEC 61508中的计算公式形式繁琐,且随着系统复杂度的提升,相关参数(如其中涉及到的“平均停机时间”)的选取会愈加困难;

(3)最新版IEC61508中针对共因失效部分提出了结构修正因子,但对于该参数的取值大小并没有给出详细的解释;

(4)铁路信号尤其是以计算机联锁为代表,具有控制中心特征的地面信号控制系统,与一般工业过程控制领域中的安全(防护)系统在涉及安全的工作方式、安全侧定义等方面有着显著不同,即在某些关键的安全特征方面,作为功能安全基础标准的IEC61508与作为铁路信号安全相关电子处理系统的EN50129各自所面向的对象之间,存在显著差异,致使IEC61508中的一些内容并不适用或并不完全适用于铁路信号电子系统[18]。

2.3.2 PDS方法假设

本文PDS方法中的计算基于以下假设:

(1)假设同一种单元具有相同恒定的失效率,且均服从指数分布;

(2)假设所有可被在线检测到的危险故障都能够被及时检测到并被排除、修复或被有效限制,从而不会产生危害后果,因此忽略能够被在线检测到的危险失效的失效率λDD,即PFH的取值主要取决于不能被在线检测到的危险失效的失效率λDU;

(3)不同于工业控制系统或车载ATP等类似存在降级模式的设备,联锁设备不存在降级操作,本文不考虑降级操作;

(4)λDU·τ应足够小(即λDU·τ≤0.2),使得e-λDU·τ≈1-λDU·τ。

2.3.3 PDS方法应用

由上面分析可知,系统的PFH由独立失效和共因失效共同组成,即PFH=PFHCCF+PFHind。

(1)对于独立失效

假设w(t)为某时刻t的无条件失效强度,则PFH在一个时间跨度[0,τ]上的平均值为

(4)

其中,τ为功能测试间隔,每经过一个τ,w(t)均恢复为0,代表经过一个功能测试后,所有失效均会被找出并修复。

对于1ooN系统,w(t)=N·[1-e-λDU·t)]N-1·λDU·e-λDU·t,因为1-e-λDU·τ≈λDU·τ,e-λDU·τ=1,所以

(5)

对于NooN系统,只要有一个单元失效,系统就失效,所以系统PFH等于所有单元失效率的总和,即

PFH=N·λDU

(6)

(7)

(2)对于共因失效

由上节分析可知,冗余结构中完全独立的单元并不存在,所以该结构最大的缺点在于各个通道之间会互相影响,从而产生共因失效。因此PDS方法中重点考虑了共因失效,采用前一节提出的多β参数模型描述PFH中共因失效的部分,公式如下

(8)

综上,PFH的计算公式为

(9)

为了确定CMooN,从两个设备构成的双重冗余结构入手分析,如图9(a)所示。圆A、B分别表示两个设备,β表示A失效时,B同时发生共因失效的概率。A、B两个设备同时发生失效的共因失效率为:λ2,2=βλ,双重冗余结构1oo2的失效率为:λ1oo2=λ2,2=βλ,故C1oo2=1。

对于A、B、C三个设备构成的三重冗余结构,设β2为A、B两个设备发生共因失效时,设备C也发生失效的概率,则A、B、C中任意两个设备的共因失效率之和为:λ2,3=3(1-β2)βλ,A、B、C三个设备的共因失效率为 :λ3,3=β2βλ,三重冗余结构1oo3、2oo3的总失效率分别为:

λ1oo3=λ3,3=β2βλ,λ2oo3=λ2,3+λ3,3=(3-2β2)βλ,则有,C1oo3=β2,C2oo3=3-2β2,β2可以取[0,1]之间的值,即C1oo3∈[0,1],C2oo3∈[1,3],图9(b)、图9(c)给出了β2分别为1,0.5时的共因失效情况。β2=1时,与 旧版IEC61508中所述的β因子模型相同,即认为任意两个设备发生共因失效时,第三个设备一定也发生共因失效,此时C1oo3=C2oo3=1。实际上,A、B两个设备发生共因失效时,第三个设备C不一定100%发生失效,其发生失效的概率通常难以确定[21]。

图9 冗余结构共因失效示意

同理,可以推广至MooN冗余表决结构。令βK(K≥2)为K个设备发生共因失效时,第K+1个设备发生共因失效的概率。对K=1也成立,这时有β1=β。当K≥3时,有

M=1,2,…,N-2

(10)

根据以上分析,取β2为0.5。 得出表1所示的不同冗余结构修正因子CMooN的取值。

表1 不同冗余结构修正因子取值

3 实例验证

以双机热备、二乘二取二、三取二方式的冗余结构为例,采用本文提出的方法计算其PFH。3种结构的可靠性框图如图6~图8所示。由通用公式(9)、表1,代入相关的参数得到1oo2、2oo2、 2oo3结构的PFH计算公式如表2所示。

表2 PFH计算公式

因此

[(λDU,CPUB1+λDU,CPUB2)·τ]/τ+

(λDU,CPUA1·τ)·(λDU,CPUA2·τ)/τ+

(λDU,CPUA1·τ)·(λDU,CPUA3·τ)/τ+(λDU,CPUA2·τ)·

(λDU,CPUA3·τ)/τ+

各元器件失效率、功能测试时间间隔τ如表3所示,β因子分别取0.1,0.02,0.05。

表3 元器件参数

将上述参数代入以上3个公式,得到:

PFH1oo2=1.3×10-8

PFH2×2oo2=1.0×10-8

PFH2oo3=1.2×10-8

由计算结果可知,该方法与IEC61508中得出的2×2oo2安全度最高,2oo3次之,1oo2安全度最低的结论相一致。

接着在软件中模拟不同β因子下,采用本文的方法和IEC61508中的方法求解这3种冗余结构PFH的结果,对比如图10所示。

图10 不同β下采用两种方法计算PFH的结果对比

由图10可以看出,在β因子数值较低(一般≤5%),即共因失效占比较小时,PDS方法与IEC61508中方法计算的结果差异不大,但随着β因子的升高,即共因失效占失效率的比重提升,对比IEC61508中方法计算的结果,PDS计算的PFH值更高,这表明:相比IEC61508中的方法,PDS方法更加重视共因失效对系统安全性的影响,而在实际现场,常常会发生因为同一种原因造成的冗余系统多通道同时失效的情况,因此该结果所呈现的规律也符合现场设备的实际使用情况。

4 结论

本文给出了一种定量估计铁路信号冗余结构危险失效概率的方法,通过分析3种典型冗余结构的特点,以β因子模型为基础,引入结构修正因子CMooN,并重点分析其取值问题,然后构建了包含失效类别的系统可靠性框图,采用PDS方法定量计算系统的PFH,最后在软件中模拟了在不同β因子下,采用IEC61508中方法与本文方法计算的PFH的变化规律,结果显示本文的方法更加注重共因失效对PFH的影响,这也符合现场设备的实际使用情况。本文忽略了能够被在线检测到的危险失效率λDD以及诊断覆盖率,下一步可将这些因素也考虑进系统安全性的分析中,以建立更加精确的铁路信号安全苛求系统的PFH计算模型。

猜你喜欢

失效率框图铁路信号
基于通信定位系统用模块的可靠性预计计算研究
基于BIM的铁路信号室外设备布置与碰撞检测方法
捷豹I-PACE纯电动汽车高压蓄电池充电系统(三)
无线通信系统铁路信号安全传输分析
铁路信号设备的自动化控制技术浅析
深入理解失效率和返修率∗
基于改进龙格-库塔法反舰导弹贮存寿命研究
电路图2017年凯迪拉克XT5
算法框图的补全
基于失效率函数的继电保护风险评估研究