APP下载

数字化仪控系统冗余设计分析

2011-06-04贺伟超马吉强北京广利核系统工程有限公司北京100094

自动化博览 2011年6期
关键词:失效率控系统概率

贺伟超,马吉强,龙 威(北京广利核系统工程有限公司,北京 100094)

1 引言

冗余技术作为提高系统可靠性非常重要的一种手段,越来越被现代工业的设计者们所采用,它在现代工业生产中扮演越来越重要的角色,尤其是在重要工业生产线上承担神经大脑的数字控制系统更是大量采用冗余设计的理念,比如核电站仪控系统就大量采用了冗余设计的方法来提高系统可靠性。本文从冗余方法、冗余机理、和与它相关联的技术及在实际中的工程应用来阐述数字仪控系统的冗余设计。

2 冗余技术应用

系统的冗余一般都是通过设备并联来实现的,比如N取P系统中的二取一冗余方法、三取二冗余方法、四取二冗余方法、二取二方法、五取四方法等。每种冗余方法的基本机理都是通过设备并联并辅以相应的决策机制来完成冗余设计的,高冗余机制在其中有设备发生故障时,可以降级到低冗余机制运行,比如:四取二冗余方法当出现两个设备同时故障时,可以降级到二取二方法运行。下面介绍一下具体冗余方法在实际工程中的一些应用:

• 控制器冗余

控制器是整个数字仪控系统的核心,绝大多数的控制任务都由它来完成,控制器冗余配置后,一对控制器按照主从二取一冗余模式运行,在工作模式下,主机承担系统的控制命令的发出,从机则处于热备状态,在执行对主机诊断、监视任务时,实时同步系统的运行数据,在主机功能异常的情况下,接替主机,成为系统任务的发出者。在考虑主从机切换时,必须实现主从无扰切换,从而保持系统工艺运行的平稳性。

在具体实现控制器冗余时,有的平台系统是以从机定时拷贝主机运行数据的方式运行,有的系统通过主从机自然同步的方法(即通过主从控制器上冗余的通信接口各自同时获取同一信息源相同的信息)实现从机对系统信息的获取,无论采用哪种方法,都要保证主从机切换对系统的影响满足现场工艺无扰切换要求。采用主从机自然同步机制,系统的无扰能力会更好。

主从控制器在自然同步过程中必然会面临主从数据可能不一致的问题,一旦差异产生,数据很难消除,所以当系统发现主从数据有不一致时必须有机制保障主从机数据的一致性,通常采用数据强制的方法,可采用初始化全盘赋值或者在运行的每个周期对重要变量进行比较赋值的方法来保障主从机数据的一致性。

• 数据服务器冗余

数据服务器作为系统数据的核心及数据链路的桥梁,它的健康状况直接影响系统的正常运行。在单层网系统中,数据服务器为系统提供数据查询服务,当数据服务器工作异常时,会导致上位机相关的数据查询统计工作失效。在双层网络中,数据服务器承担着更为重要的工作,比如输入输出转换、历史数据存储、趋势、报警、日志查询服务、特殊运行复杂工艺数据的统计计算等任务,数据站的工作异常,直接会导致上位机操作故障,系统只能依赖下位机控制器的自主判断及连锁保护,系统的运行是非常危险的。所以在重要的仪控系统中,必须为仪控系统提供冗余的数据源,保证系统整体数据链路的正常工作,一般仪控系统采用二取一冗余方法运行。

一般系统配置两台数据站,在系统规模较大、计算处理任务较多时系统需要配置多于两台的数据站,分别具体处理特殊的交换任务。如历史数据站、打印服务站、计算服务站、输入输出转换服务站等。为了进一步增加数据站的可靠性,每台数据站本身还需要配置冗余的电源模块、磁盘阵列、冗余风扇、冗余网卡等设备。当主数据站故障时系统可以无扰的切换到辅助数据站进行正常运行。

• 电源冗余

电源作为仪控系统的能量来源,它的可靠性直接决定了仪控系统的可靠度,所以必须保障电源系统能够安全、可靠、长期、稳定的运行。在仪控系统的设计中,经常采用多组电源模块组成冗余电路对系统进行供电,比如采用二取一冗余方法的1+1型、N+1型等供电设计。当某一组或几组电源出现故障无法正常工作时,则由其他热备电源进行供电。因此,在对控制系统进行电源冗余设计时,必须根据所用电源的功率、可靠性以及系统所规定的最短平均无故障时间等参数来考虑电源的搭配设计。

典型电源组合示意图如图1、图2所示。

图1 1+1型

图2 N+1型

• 网络冗余

数字仪控系统的各个组成部分包括主控制器、网关、网络连接模件、输入输出模件,它们之间的通信都是通过网络通讯的方式来实现,如DCS(FCS)系统的设计极大的发挥了现代通讯技术的优势,极大的提升了现代工业的制造能力,所以网络作为数字仪控系统的核心部件之一,它的可靠性是非常重要的。数字仪控系统的通讯技术中大量植入了冗余的设计理念,一般通过双网进行通讯,一条网络的缺失不会影响到系统本身的功能运行,给在线维修工作带来了可能,并能保障生产系统的连续运行,其中各层的网络设备通过冗余配置的交换机进行链路通讯连接。

在工控行业中,根据各自技术的特点采用的网络结构也不同,有把仪控系统网络分成三层网运行的:控制器到输入输出模块级网络、控制器到数据服务器网络、数据服务器到操作员站网络;有把仪控系统网络分成两层网运行的:控制器到输入输出模块级网络、控制器到数据站/操作站网络,虽然具体网络形态不同,但网络都采用了冗余的设计理念。

在正常运行时,系统能够对通讯网络状态进行检测,并选择其中一条作为工作数据链路,另一条备用。当某工作链路出现故障时,系统能够自动的判断并无扰的将通信任务切换到另一条链路上以保障通讯的正常进行,同时给出网络状态提示信息。

典型的网络结构如图3、图4所示。

• 散热设备冗余

仪控系统工作时需要考虑环境温度的因素,周围环境温度太高会影响系统的稳定性,当系统自然通风不能满足系统环境温度要求时,需要设计系统为强制通风散热。在重要的仪控系统中采用冗余的散热设备,比如采用二取一冗余方法的1+1散热风扇设计,保障在其中一台风扇故障时,另外一台风扇单独工作也能保持仪控系统温度场的稳定性。

• 操作站、工程师站冗余

系统配置多台相同功能的操作员站及工程师站,各个操作员站在正常工作时按照工艺系统进行分工,当出现操作员站故障时,可以使用其他操作员站接替故障操作员站的工作,保证操作员站工作的正常进行,同时所有的工程师站作为操作员站的备份,当出现所有操作员站故障时,工程师站可以接替操作员站进行操作执行。

图3 两层网络结构

图4 三层网络结构

3 冗余方法的失效概率分析

(1)并联系统的正常工作概率分析

两个部件分别为A和B,假设部件的失效模式是完全独立的,如果A或B正常工作,系统就会正常工作,只有当A和B同时失效时,系统才能失效。

图5 并联系统

RA设备A正常工作的概率;

FA设备A失效的概率;

RB设备B正常工作的概率;

FA设备B失效的概率;

RS系统正常工作的概率;

FS系统失效的概率。

系统正常工作的概率:

RS= RA+RB- RA.RB

系统失效率:

FS=FA.FB

把并联系统扩展到N个具有独立失效模式的设备并联,可以计算出系统的失效概率:

FS=F1.F2¨¨¨FN

系统正常工作的概率:

RS= 1- FS

(2)几种实用并联冗余方法的机理失效模式分析

• 二取一冗余方法

假设两个设备完全相同,二取一冗余方法的正常工作概率为:

系统失效率:

FS=1- RS

系统正常工作的概率、系统失效率具体计算:

假设设备A、B的正常工作概率都为0.98

RS=2*0.98-0.928=0.9996

FS=1-0.9996=0.0004

典型的正逻辑算法如图6所示。

图6 二取一冗余正逻辑算法

典型的继电器电路如图7所示。

图7 二取一冗余继电器电路

• 三取二冗余方法

假设三个设备完全相同,三取二冗余方法的正常工作概率为:

系统失效率:

FS=1- RS

系统正常工作的概率、系统失效率具体计算:

假设设备A、B、C的正常工作概率都为0.98

RS=3*0.928-3*0.948+0.968=0.999937900864

FS=1-0.999937900864=0.000062099136

典型的正逻辑算法如图8所示。

图8 三取二冗余正逻辑算法

典型的继电器电路如图9所示。

图9 三取二冗余继电器电路

• 四取二冗余方法

假设四个设备完全相同,四取二冗余方法的正常工作概率为:

系统失效率:

FS=1- RS

系统正常工作的概率、系统失效率具体计算:

假设设备A、B、C、D的正常工作概率都为0.98

RS=6*0.928-15*0.948+20*0.968-15*0.988+6*0.9108-0.9128=0.99999999614

FS=1-0.99999999614=0.00000000386

典型的正逻辑算法如图10所示。

图10 四取二冗余正逻辑算法

典型的继电器电路如图11所示。

图11 四取二冗余继电器电路

• 二取二方法

假设两个设备完全相同,系统正常工作的概率:

系统失效率:

FS=1- RS

系统正常工作的概率、系统失效率具体计算:

假设设备A、B的正常工作概率都为0.98

RS=0.928= 0.9604

FS=1- 0.9604=0.0396

典型的正逻辑算法如图12所示。

图12 二取二正逻辑算法

典型的继电器电路如图13所示。

图13 二取二继电器电路

• 五取四冗余方法

假设五个设备完全相同,五取四冗余方法的正常工作概率为:

系统失效率:

FS=1- RS

系统正常工作的概率、系统失效率具体计算:

假设设备A、B、C、D、E的正常工作概率都为0.98

RS=3*0.948-3*0.988+0.9128=0.99953213598

FS=1-0.99953213598=0.00046786402

典型的正逻辑算法如图14所示。

图14 五取四正逻辑算法

典型的继电器电路如图15所示。

图15 五取四继电器电路

(3)几种实用并联冗余方法的机理失效模式比较冗余方法正常工作概率曲线图如图16所示。

图16 正常工作概率曲线图

从图16中可以看出,系统正常工作概率依次从二取一、三取二、四取二开始逐渐提高,但当系统增加到五取四冗余时,系统的可靠性反而下降。当系统从四取二冗余降级到二取二时,系统的可靠性有一个显著的下降,实际此时系统已经不是严格意义上的冗余工作模式运行。所以如何选择冗余方法,必须结合实际的系统可靠性要求,根据冗余方法的机理及实际系统的复杂度要求综合考虑冗余方法的取用。

4 可靠性设计中的其他技术

在此处简单介绍一下数字仪控系统可靠性设计中经常采用的一些技术,方便读者了解冗余性技术与其他可靠性保障技术的关系。

• 容错技术

容错技术就是当由于种种原因在系统中出现了数据、文件损坏或丢失时,系统能够自动将这些损坏或丢失的文件和数据恢复到发生事故以前的状态,使系统能够连续正常运行的一种技术。比如服务器磁盘存储阵列中的RAID5、通讯校验中使用的CRC算法等。

• 故障诊断

利用各种检查、测试、验证、判断方法,发现系统和设备是否存在故障的过程是故障诊断。冗余技术必须依赖准确的故障诊断机制才能真正发挥作用,就像医生给病人看病一样,医生的诊病过程就是数字仪控系统的故障诊断的过程,只有看准了病因,才能对症下药。在故障诊断后,及时由带病单元切换为健康单元工作,并给出系统提示报警,及时进入在线更换维护流程,保持现场工艺机组的健康、长期、稳定运行。良好的诊断机制是在充分考虑现场控制设备、工艺安全运行的基础上得来的,有时仪控系统本身的设备安全往往和现场工艺设备的故障处理相矛盾,到底是先保设备还是先保工艺安全,需要综合评价,最终找到一个平衡点,一般现在的仪控系统平台都提供给了工程人员一定的手段去调整两种情况的选择。

• 降额

数字仪控系统的设备一般都为电气设备,这些电气设备又都是由一些电子元器件有机的组合而成,它们都有一定的使用条件,这些使用条件是以元器件的某些额定参数值来表示的。实践证明,当元器件的工作条件低于额定值时,其工作比较稳定,发生故障的机会也比较少。所以为了提高可靠性,往往将元器件降额使用。降额的幅度要从可靠性和经济性两方面综合考虑,因为元器件的额定参数越高,价格也越高,所以要结合实际系统应用场合,进行合理的器件降额使用。降额技术的合理采用,可有效地减少系统对于冗余性的依赖,在同样冗余设计能力下,可有效的提高系统的整体可靠度。

• 后备盘设备

后备盘设计本身也是一种冗余的理念设计,设计者对重要设备或控制回路可以采用手动后备的方法来提高整个系统的可靠性。一旦主设备操作失灵,可以切换到后备装置控制生产过程。具体的后备设备可以由纯电气操作盘组成,也可以由独立的数字系统组成,如核电数字仪控系统中:提供紧急停堆后备盘,来应对处理反应堆紧急状态下的停堆操作。

• 系统故障输出保持锁定

当系统关键设备损坏(包含冗余设备)时,根据现场工艺系统设备安全位的要求,仪控系统通过输出卡件故障保持安全输出的方式来为现场工艺运行增加一道安全保护,把因为仪控系统本身故障造成的损失减少到最小。

• 电气辅助回路保护

仪控系统指令信号的执行一般都是通过电气辅助回路进行转换控制的,当仪控系统本身故障,失去相关机能时,可以通过电气辅助回路保护回路的设计进一步减小故障造成的设备、工艺运行的损失,达到系统整体安全性的更优化。

• 耐环境设计技术

在系统硬件的设计上,需要充分考虑各种环境因素的影响,采用适当的冷却、抗震、防尘、防腐等技术措施,以提高系统抵御外部环境侵袭的能力。如核电仪控系统中不同安全等级的仪控设备对抗震、防尘的要求都不同,设计者必须根据实际核安全要求,定制进行抗震、防尘、防腐设计,保障核电仪控系统的可靠性。

• 信号隔离

在机组信号通道分配时,注意机组重要信号的隔离,使同一设备的重要信号不在同一模件上配置。同时系统采用继电器隔离的方式来实现模块通道与现场全部隔离的要求,使现场的故障最大限度的与控制装置本身隔离。隔离的技术从深层次上还是冗余设计的思想,保障系统关键部件在损坏的情况下,对系统造成的影响最小。

5 结论

数字仪控系统冗余设计策略作为一种被动的可靠性保障技术已经广泛的应用到了我们实际的生产生活之中,从图16中的数据可以得出,过于复杂的冗余设计并不一定能够取得满意的效果,随着系统复杂性的提高,导致系统失效的故障也将随之增多,系统反而可靠性下降,所以一套冗余系统是否可靠,必须结合生产工艺的实际情况进行设计,如核电厂中安全级仪控系统,仪控系统的冗余机制必须实际结合核安全保护系统实际的工艺需求进行量身定制(包含硬件、软件),这样才能够真正保障核电站的可靠稳定运行。

[1] 威廉•戈布尔, 白焰(译), 董玲(译), 杨国田(译). 控制系统的安全评估与可靠性[M]. 中国电力出版社. 2008.

[2] 黄文君, 余建祥, 冯冬芹, 褚健. 控制系统的冗余策略和实现准则[J]. 仪器仪表学报.2004, 8.

[3] GB/T13626-2008, 单一故障准则应用于核电厂安全系统[S].

[4] 田仲, 石君友. 系统测试性设计分析与验证[M]. 北京航空航天大学出版社. 2003, 4,1.

猜你喜欢

失效率控系统概率
第6讲 “统计与概率”复习精讲
Archimedean copula刻画的尺度比例失效率模型的极小次序统计量的随机序
第6讲 “统计与概率”复习精讲
概率与统计(一)
概率与统计(二)
关于DALI灯控系统的问答精选
联调联试中列控系统兼容性问题探讨
深入理解失效率和返修率∗
基于改进龙格-库塔法反舰导弹贮存寿命研究
一种新型列控系统方案探讨