APP下载

MaxDNA控制系统DPU频繁切换导致机组跳闸故障分析

2017-06-05李学伟姚常青

山东电力技术 2017年3期
关键词:宕机升级控制器

李学伟,姚常青,高 嵩

(1.华电章丘发电有限公司,济南 251200;2.国网山东省电力公司电力科学研究院,济南 250003)

MaxDNA控制系统DPU频繁切换导致机组跳闸故障分析

李学伟1,姚常青2,高 嵩2

(1.华电章丘发电有限公司,济南 251200;2.国网山东省电力公司电力科学研究院,济南 250003)

对一起335 MW机组MaxDNA控制系统DPU(分布式处理单元)频繁切换导致机组跳闸的故障进行分析,通过进行切换试验、故障统计,对比DPU版本号和查阅MaxDNA系统硬件手册,发现该切换故障是由DPU本身硬件缺陷所导致的。制定解决方案对相应的DPU模块进行更换,有效地防止了该类型故障的发生。

机组跳闸;分散控制系统;分布式处理单元;频繁切换

1 系统组成和故障情况

1.1 系统组成

华电章丘发电有限公司二期工程建设2台350 MW机组,机组分散控制系统 (Distribution Control System,DCS)采用MaxDNA系统。3号机组和4号机组分别于2006年8月和2006年11月相继投产。

MaxDNA系统的结构如图1所示。MaxDNA的网络结构取消了过程级控制和监督级控制之间的区分,把两者的控制组建在了同一层网络拓扑中,称之为MaxNet通信网络。MaxNet通信网络采用符合IEEC802.3的双层以太网介质、物理星型、逻辑环型拓扑,具有冗余通信功能。MaxNet的网络带宽可达1 G bit/s,足以胜任大型控制系统的通信负载要求,直连在MaxNet网络上的有工作站和DPU,共享MaxNet带宽。工作站与DPU之间的数据通信不需要服务器中转,可以直接点对点(DPU与DPU之间)或通过广播 (工作站与工作站或工作站与DPU之间)进行数据通信[1-2]。每1台工作站或1个DPU在MaxNet网络看来都是1个结点(Node),也就是MaxDNA取消了过程级控制和监督级控制之间的区分,解决了这两层控制层之间存在的服务器瓶颈问题。

3号机组DCS由25对DPU构成 (含2对公用系统),4号机组DCS由23对DPU构成,软件版本为DPU4F 4.3,操作员站各7台,历史站各1台,工程师站各1台。各对DPU功能分配如表1所示。

正常情况下,每对分布式处理单元的2台DPU同时运行,1台工作1台热备用。当主DPU故障时将自动切换到副DPU运行,副DPU将接管网络和I/O系统。主、副DPU通过组态来选择,一对DPU中任何一个都可以作为主控制器。如果检测到重大的诊断错误,控制权将自动传给副控制器。DPU可以下载变化的数据并无扰传给组态。组态的下载可以是整个控制策略也可以是一个单独的点。完全面向对象的设计允许对控制策略的数据进行封装以防止在下载和测试过程中由于疏忽引起的扰动。

图1 MaxDNA系统结构

表1 DPU功能分配

1.2 系统故障情况

2014-07-19T02∶10∶14,4号机组A引风机和B引风机动叶调节指令由48%突减至18%(引风机动叶调节指令自动时低限设置为18%,手动时低限设置为0%),动叶调节开度减小,引风机出力降低,炉膛压力升高,达到跳闸值,锅炉MFT。期间4号机组参与引风机自动控制运算的BO6副DPU控制故障,向主DPU自动切换。查阅DCS引风机系统控制器4B06_P在线组态数据,参与控制器间调用的中间变量信号间通信故障报警,无法读取其余控制器的变量,通过切换实验初步判断为DPU故障。

1.3 故障测试

由于DCS系统采用的是MaxDNA早期产品,存在网络通信故障的隐患[3-4]。2012年和2014年利用机组检修的机会,委托DCS厂家先后对4号、3号机组DCS控制系统进行了升级,更换了上位机硬件,DPU软件版本由4.1升级到4.3,控制器(DPU)硬件未进行更换,升级后各项功能正常,切换试验正常。系统升级后,通过运行一段时间的观察,DPU切换次数较升级前明显增多。问题发生后,对DPU频繁切换的原因进行了分析,并将故障DPU返厂进行进一步测试,分别进行3种切换方式试验。1)复位切换:复位主控制器,则辅助控制器应接管运行,然后复位辅助控制器,则主控制器接管运行;2)拔卡切换:拔掉主控制器,则辅助控制器应接管运行,然后拔掉辅助控制器,则主控制器接管运行;3)画面软件切换:在控制器监控画面中,选择辅助控制TAKEOVER按钮,点确认,则辅助控制器接管运行。在控制器监控画面中,选择主控制器TAKEOVER按钮,点确认,则主控制器接管运行,每次都切换正常。在测试过程中,DPU工作正常未出现网络通信故障或DPU切换故障。为了彻底排除静电干扰,增设了独立的DCS接地极和接地电缆并经测试合格。

1.4 故障影响

自2014年2月至2015年1月,3号、4号机组共发生DPU切换45次,其中3号机组23次、4号机组22次,DPU切换相当频繁,且不具有周期性和规律性。DPU频繁切换增大了控制器故障的概率。DPU频繁切换的主要风险有:一旦主控制器异常切换副控制器失败时,相关的所有参数将无法显示,设备无法操作;而当主控制器切换后,接管的副DPU故障时,也可能造成切换不成功控制器内部保护信号的翻转或者模拟量指令的跳变,造成保护误动,重要辅机跳闸甚至机组跳闸。如:2011-12-28T09∶16,3号炉C磨煤机跳闸,首出原因为 “一次风机全停”。C1、C2给煤机连锁跳闸,就地检查3号炉C磨煤机电机开关无报警信号。检查历史趋势发现从09∶14中断2 min,查看DCS系统状态中3F03控制器状态,发现3F03主控制器在09∶14重启复位。检查磨煤机跳闸逻辑,3F03控制器调用的一次风机关反馈的初始值为1,即在控制器重启复位时,默认初始值,一次风机全停信号被误发出来,C磨煤机跳闸。主控制器故障复位,由于控制器软件版本较低,副DPU切换不成功。

2 故障分析

针对DPU频繁切换的情况,通过深入分析现场的一些故障信息与现象,基本上可以确定DPU切换是由DPU故障[5-7]造成的,DPU4F所采用的CPU芯片存在相应的缺陷(BUG)。

DPU4F的CPU采用AMD公司的GeodeSC2200。早期的DPU4F采用D3版本的GeodeTMSC2200,D3版本的CPU由于存在相应不足,后来经过AMD公司的改进,GeodeTMSC2200升级到D3.3版,在CPU升级后,DPU4F也采用D3.3版本的CPU。D3.3与D3版的一个重要升级,修复了存在于D3版本中严重BUG。关于这个BUG,AMD官方有一个文档描述[3-5],具体如下。

异步事件的具体调整导致宕机

说明:如果CPU取指令跨越了页边界,并导致tablewalk,PCI总线主控事件,中断事件发生在一个非常具体的调整;CPU可能出现宕机。

含义:这个宕机的概率是非常小的。根据长期以非常极端的负载条件测试微软WindowsXP和Linux操作系统内核2.4.17版本及以上的版本,宕机现象已经被观察到。而这种危险应该也在其他操作系统存在,只是故障还没有被观察到。

解决方法:无。宕机的概率有可能通过减少的IRQ和/或SMIs的频率被降低。总线一次掌管高速缓存行大小(8字节),而不是更少的量,这样也将减少宕机发生的概率。

通过上述说明可以看出当CPU在某种情况下,会出现宕机现象。虽然发生这种宕机的概率较小,但当计算负荷大且测试时间足够长,这种宕机现象是确实存在的。

因此可以判断,当DPU运行时间较长后,D3版本中存在的这个BUG就可能导致该DPU发生宕机,如果此时该DPU的状态正是Active时,由于Active DPU已不能产生相应的心跳信息,那么此时就会发生切换,另一个DPU就会进行接管。该DPU的心跳信号,与发生宕机时会出现的现象非常吻合。另外从全厂所有的DPU来看,一个月内会发生一次DPU的切换,然而根据用户报告,发生切换的DPU并不是同一个,即这次切换是这个DPU,下次是另一个DPU,可以看出这种情况只有在DPU运行时间足够长的时候才会出现,因此与AMD官方文档的描述也基本吻合。由于这个问题,牵涉到CPU底层的硬件问题,单独的软件修复解决这个问题的可能性不大,因此唯一的办法就是更换DPU,彻底解决D3版本的GeodeTMSC2200所存在的这个BUG。最后确定彻底解决这一问题的方法就是硬件升级和更换新的DPU卡件彻底替换掉那一批DPU,特别是计算负荷大的DPU要优先更换。

DCS厂家研发人员对现场情况进行检查,2013年脱硝DPU连续运行2年多未发生切换的情况基本确定频繁切换的原因为DPU本身硬件存在BUG造成。

3 解决方案

利用机组调停的时间,首先对4号机组的部分DPU进行了更换和调整。利用现有的4块全新的备品以及后上系统(脱硝系统、4B塔脱硫系统、脱硝空压机系统)DPU为2005年以后的产品,不存在设计漏洞。对10块DPU进行了调换,通过对低版本升高版本以及将相对重要性差一点或者辅助运行的高版本DPU更换到相对重要的主DPU运行各5块。这样4号机组23对DPU中保证有16对DPU的主运行DPU为高版本DPU,低版本的DPU作为热后备使用;2015年9月15日对3号机组DCS系统DPU升级,更换DPU 8对,DPU软件升级为MR版,运行情况正常,至此所有整改措施完成,这个结果与能够大幅的降低DPU频繁切换的次数的分析相符合,也进一步证明了DPU频繁切换确是由于2004生产的DPU存在BUG的推断,随着DPU全面升级计划(考虑电子元器件寿命)的实行,故障得到彻底解决。

4 结语

对一起335 MW机组MAXDNA系统DPU频繁切换导致机组跳闸的故障进行分析,通过切换试验、故障统计、对比DPU版本号和查阅MAXDNA系统硬件手册,发现该切换故障是由DPU本身硬件BUG所导致的,并制定了相应的解决方案对相应的DPU模块进行了更换,实际运行中大大降低了DPU的切换次数,4号机组运行近一年多时间、3号机组运行近半年的时间内未发生DPU频繁切换的故障,取得了预期的效果。在现场设备维护过程中DPU频繁切换是一种异常状态,是机组跳闸的先兆,一旦发现一定要找出真正原因并彻底解决,彻底消除控制系统安全隐患。

除了要加强设备巡检维护,对电源电压经常检测灰尘清理和接地检查外,建议厂家完善对DPU运行状态的监视功能,提高DPU切换及故障报警级别,运行过程中主DPU要时刻监测副DPU的心跳信号和网络状态,发现异常语音报警同时对副DPU进行隔离,一旦此时主DPU也发生故障将不再进行切换,而是根据实际情况模拟量保持安全值、开关量保持原状态。

[1]何滔.MaxDNA集散控制系统故障分析[J].电工技术,2013(3):50-51.

[2]曹晓雨.国电智深DCS系统DPU异常切换的处理[J].电子技术与软件工程,2015(24):134.

[3]杨丽.MaxDNA分散控制系统的分析与探讨[J].仪器仪表用户,2012,19(1):88-91.

[4]曹光伟.MaxDNA分散控制系统在安庆电厂的应用[J].电力建设,2008,29(3):88-90.

[5]吴科,马振华,朱能飞,等.国产MaxDNA大型分散控制系统在1 000 MW机组一体化控制中的应用[J].华电技术,2015,37(8):6-9.

[6]陈建.新华DCS系统DPU频繁切换故障的处理[J].宁夏电力,2011(5):47-48.

[7]何滔,张宇飞.MaxDNA集散控制系统在火力发电厂中的应用[J].工业控制计算机,2013,26(7):6-7.

[8]陈珍顺.DCS系统DPU网络故障导致操作失控案例分析[J].内蒙古电力技术,2015,33(1):94-97.

Fault Analysis of Unit Trip Caused by DPU Frequent Switching of MaxDNA System

LI Xuewei1,YAO Changqing2,GAO Song2
(1.Huadian Zhangqiu Corporation,Zhangqiu 251200,China;2.State Grid Shandong Electric Power Research Institute,Jinan 250002,China)

A unit trip fault caused by DPU frequent switching of MaxDNA system in a 350 MW power unit is analyzed.The switch fault is found to be caused by the DPU hardware bug through analyzing the switching test and fault statistics,contrasting the DPU version number and consulting the MaxDNA system hardware manual.The corresponding solution is formulated,and the corresponding DPU module is replaced,which effectively prevents the occurrence of the fault.

unit trip;distribution control system (DCS);distribution processing unit(DPU);frequent switching

TM621.6

B

1007-9904(2017)03-0070-04

2016-09-11

李学伟(1967),男,高级工程师,从事发电厂热工控制系统维护工作。

猜你喜欢

宕机升级控制器
小投入,大升级 Polk Audio Monitor XT系列
关于无锡地铁梅园站计轴宕机的研究
岛内人口普查刚启动就遇“宕机”
幸福,在“家门口”升级
回暖与升级
基于集中采购的分布式系统的设计与实现
一起民航气象数据库系统进程频繁宕机故障分析及处理方法
模糊PID控制器设计及MATLAB仿真
MOXA RTU控制器ioPAC 5542系列
倍福 CX8091嵌入式控制器