APP下载

民航飞行核心数据服务信息系统预防性检查方法研究

2018-03-20华东地区空中交通管理局裘禛宇

电子世界 2018年4期
关键词:电源模块备件停机

华东地区空中交通管理局 裘禛宇

0 引言

设备的运作精度和故障率将直接影响生产系统的质量,是一类不容忽视的因素。建立健全一套经济高效的设备维护、管理体系成为众多企业越来越重视的管理课题。它是提高设备运行质量及其综合效率最直接、最有效的途径。对于设备的检查维修,最常用的有两种手段:

一种称为修复性维修(Corrective Maintenance),又称事后维修(Break-down Maintenance)。它是以设备是否完好或是否能用为依据的维修,只在设备部分或全部故障后再恢复其原始状态,也就是故障后修理,属于非计划性维修。

另一种称为预防性维修[1](Preventive Maintenance),又称预防性检查,是以时间为依据(Time Based)的维修检查。它根据生产计划和经验,按规定的时间间隔进行全面检查各部件,以预防损坏、继发性毁坏及生产损失。

如何根据设备特点,科学合理地开展预防性检查,一直是业界和学术界研究的热点。但是此项研究大多聚焦于维护周期的选取上:从最早采用的静态维护策略,即等周期模型;到单一目标决策方法,如V aurio提出的以成本作为目标函数的决策模型[2],及Bahrami等提出的以可用度作为目标函数的决策模型[3];再到多目标函数决策方法,选取多个不同的权重因子赋予多个目标函数[4]等等。

不同于周期性维护检查,本文讨论的预防性检查,是根据特定需要,确定特定目标而进行的单次预防性检查。相对于固定项目、时间点的日常巡检和周期维护,预防性检查更为全面、深入,且更具预测性;集中信息系统各专业人员,在相对短的时间内,综合性全面地检查各部件,可在最短停机时间内完成设备检查、排除设备意外状况;高效地利用人力资源,降低人力成本;预防性检查在事前有充分的计划准备时间,因此能够在很大程度上减少风险。

由于预防性检查最初源于医学界,是指从预防医学的立场出发,对医疗设备的异状进行早期发现和早期维修;而之后,此项技术在工业生产领域得到了较广泛的运用,指导企业对设备进行维修、润滑、调整、改造工作的计划安排,因此,针对医疗器械以及工业设备进行预防性检查的研究较为丰富,而对于民航界专用信息系统的预防性检查的研究较少。

本文就如何针对信息系统进行预防性维护这一问题展开讨论,从一个案例出发,探讨对于信息系统设备硬件、软件、数据库等层面进行规范化预防性检查的方法。

2 规范化预防性检查流程

2.1 规范化预防性检查

规范化信息系统设备的维修保养是设备管理中一个十分重要的环节。应当对信息系统设备制定相应的操作规程和维护保养制度。特别是对预防性检查的流程,各阶段的工作内容以及所需的文档,都应当制定相对应的规范。

一个完整的信息系统设备预防性检查由三个阶段组成,分别为计划和准备阶段,执行和维修阶段,总结与评估阶段。如图1所示,当特定的检查需要来临时,开启本次预防性检查:首先对本次检查分析需求、制定目标、编制计划、确定检查方案,并按方案着手准备;然后进入执行和维修阶段,并完成检查及维修记录;最后总结、评估检查的有效性、必要性和充分性。

图1 规范化的预防性检查流程

2.2 计划和准备阶段

制定详细的预防性检查计划,可以使之后的工作秩序化。计划的内容应当包括:

(1)分析任务特定需求及设备状况,制定工作目标,确定检查范围;

(2)计划预防性检查的时间及人员分工;

(3)根据需求,制订硬件设备、软件模块等部件的检查项目、停机检查方案和应急预案;

(4)根据检查内容,确定停机次数、时间、检查顺序等,制订系统停机操作计划;

(5)编写预防性检查方案文档。

需要指出的是,预防性检查方案中应当明确预防性检查工作实施执行前的准备工作,如:应急备件的准备、相关用户及保障单位协调工作、详细的停机操作步骤确定、检查记录表和维修记录表制备、应急车辆应急人员等后勤保障安排等。其中与相关用户及保障单位协调非常重要,一般而言,在预防性检查执行前三至五天,应召集相关用户及保障单位将预防性检查的检查目的、范围、内容及停机时间、影响范围等告知用户,听取用户意见,并与相关保障单位做好协调工作。

在计划和准备阶段,最为重要的工作有三项:

(1)详细、全面、深入的制订每个设备的检查项目和方案;

(2)制定合理的停机操作计划和应急预案;

(3)做好与相关用户及保障单位协调工作。

2.3 执行和维修阶段

如执行阶段包含停机检查项目的,在停机检查开始执行前,应先确认以下四点:

(1)参与检查的人员是否已经全部到位,人员对自身负责的操作内容、应急预案是否悉知;

(2)负责检查的指挥人员是否明确,如在检查过程中发生意见不一致,应统一服从指挥人员安排;

(3)是否已经通知了用户,在预防性检查开始执行前。应再次通知用户,告知影响范围、大致的结束时间以及备用、应急措施;

(4)备件、应急车辆、应急人员是否已经准备到位,相应备用系统、应急系统是否工作正常。

在执行过程中,除突发事件外,应当严格按照操作计划,按步骤依次执行预防性检查的操作,并填写检查记录,包括操作执行时间、操作过程、检查结果等。如在检查过程中发生意外情况,则立即启动应急预案进行处置,如:意外造成主用系统瘫痪无法使用的,按预案立即切换至备用或应急系统;又如:在检查过程中发现重大故障的,按预案立即组织力量或联系相关技术支持进行维修,并做好相关维修记录等等。

2.4 总结与评估阶段

完成检查之后需对整个检查过程进行总结,总结的内容应当包括:实施时间、范围、参与人员、检查过程、意外情况、检查结果、经验总结等。其中,检查过程应当着重记录操作过程、故障处理过程;检查结果应当记录检查中发现的不正常情况,不但要记录已处理问题,也要记录待处理的问题及改进方法;经验总结则是对整个检查工作得失的分析,以便在今后的检查工作中不断提高。

预防性检查的作用不仅仅在于发现、排除一些故障隐患,同时也能发现平时工作中的一些问题,如布线、标签、通报流程、配置备份、业务资料核对等环节是否规范、到位。

此外,在预防性检查完成后的一段时间之内,应回头重新评估该次检查的有效性、必要性和充分性,以供日后参考、改进。评估工作可发现检查过程中的不足,如检查效率和效果,计划是否周密、准备工作是否到位、预案是否充分、与用户的沟通是否充分、时间安排是否合理等等,特别是检查后一段时间内所暴露出的问题,能够反映检查工作的质量。

3 信息系统预防性检查案例

3.1 案例背景

民航飞行核心数据服务专用网络(简称飞行服务专网)2014年建设,目前覆盖华东、东北地区十大空管局及其下辖各分局、站,并连接全国各地区空管局、华东地区重要航空公司和机场,承载华东、东北地区多个管制重要信息系统的空管专用网络。飞行服务专网承载了多个重要管制系统,包括:全国飞行计划处理系统,华东统一放行和协同决策(CDM)系统,东北统一放行和协同决策(CDM)系统,各地区塔台电子进程单系统等。对于空管局飞行计划处理中心,华东和东北空管局流量管理室,华东和东北各地空管局塔台管制室,以及华东各地机场、航空公司调度室等用户而言,飞行服务专网所承载的信息系统,提供飞行核心数据服务,是其重要生产系统。

飞行服务专网内主要信息系统均由主、备两套系统组成。重要设备如核心交换机、核心路由器、关键服务器等均有主、备两台设备组成,互为备份。为保证金砖会议期间,飞行服务专网内各信息系统的稳定运行,避免出现影响系统使用的故障停机,需要对整个系统做一次全面、深入、彻底的检查,其检查策略包含以下三个方面:

(1)深入的主用系统、主用设备检查。对于在用系统所有网络、主机、接口等硬件设备;数据库、通信中间件、应用软件等软件模块,必须深入检查全部部件运行状况,评估运行风险,排除隐患;

(2)全面的备用系统、备机、备件检验。对于平时不在用的,但作为备份手段而存在的系统、设备、模块、链路等,必须全面检验其可用性,确保在主用部件故障时能够快速启用,且备用部件性能能够满足持续对外服务的需求。

(3)周全的辅助保障手段审核。对系统各类标签及资料进行核对;对系统的重要备件、常用工具,测试其可用性;对于各类线缆、转换器等小部件,统计型号、规格,核对库存备件数量及存放位置,对于备件缺口进行及时补充。

由此可见此次检查工作具有工作量大、综合性强、技术复杂、风险控制难度较大的特点。

3.2 确定检查范围、需求和方法

在预防性检查计划过程中,首先,需要确定检查的范围,如需要检查哪些网络设备、哪些服务器、哪些软件模块等等;然后具体深入到每一个设备、模块的检查需求中,确定检查项目和方法。本次预防性检查的范围包括所有网络设备、主机设备、存储设备检查;主用、备用系统应用软件、数据库、消息中间件等软件检查;备件、工具、标签、资料核查;备用系统可用性检查等。

下面以一台网络设备为例,一台网络设备需要检查以下项目:

(1)设备运行状况检查,如CPU利用率、内存利用率等设备负载信息,电源、风扇、温度等设备硬件状态。这些属于较为常规的检查,通过show processes cpu,Show environment等命令可以看到。

(2)端口检查。检查每一个在用端口状态、配置、传输的误码率、丢包率等。检查每一个非在用端口是否关闭,检查每一个终端的在用端口是否做到mac地址绑定。

(3)设备IOS版本与配置备份情况检查。检查各网络设备的IOS版本是否一致,IOS是否有备份,网络设备配置是否备份。

(4)设备日志分析、流量分析。检查syslog记录,逐条分析过去一段时间出现的告警记录;检查流量状况,评估目前网络运行状况,预估流量增长。

(5)冗余部件检查。冗余电源模块检查,关闭一块电源模块,检验双电源模块的备份效果;冗余链路工作情况检查,关闭一台主用设备或断开一条主用链路,检验冗余链路的备份效果。

(6)关机重启测试,用于检验设备引导部件工作状况。

(7)备件情况检查。包括:备用设备可用性;各类光模块、光跳线备件是否充足等,如光跳线检查,我们先统计所有在用光跳线接口、长度、介质(单模、双模),分别检查每种光跳线备件的库存情况。

上述检查项目中,设备负载、硬件状态、在用端口状态、配置备份等检查项目属于日常巡检或者周期维护的范围;而日志分析、流量分析、mac地址绑定检查、非在用端口检查、备件情况检查、冗余设备、链路、电源检查、关机重启测试等并不需要经常性地进行,属于更细致、更深入的检查,而这些检查项目都是事前根据任务特点、任务目标,针对性地分析、制订的,能够有效地排除设备运行隐患。如日志分析,通过检查历史syslog记录,可以对设备运行状态做出综合分析及预测;而流量分析能够评估出目前网络运行状况,发现带宽不足等隐患;关机重启测试用于检验设备启动功能正常性;备件库存检查则保证了备件的充足与可用;mac地址绑定检查和非在用端口检查则保证了网络的安全性。这些检查项目都充分体现了预防性检查的深入性、全面性和预见性。

有些检查项目,如设备负载、硬件状态、端口状态、配置备份、日志分析、备件情况在设备运行过程中随时可以检查,而有些项目为了避免风险,只能在停机后检查,如关机测试、电源模块检查、冗余设备、链路、端口检查等。对于非停机检查项目,应制备检查表、确定检查时间、安排专人进行检查;而对于停机检查项目,还应当事先针对某一台或某一类设备制备停机检查方案以明确步骤 如本次金砖保障预防性检查中对于一台核心交换机swicth-02的停机检查操作步骤如下:

(1)登陆一台互为备份的核心交换机swicth-01con口,长ping接入层交换机,查看接入层交换机链路冗余情况,待swicth-02电源模块全部关闭时记录长ping丢包数。

(2)关闭swicth-02交换机电源模块power 1。

(3)用sh power 命令查看交换机单电源模块power 2独立运行情况及耗能情况。

(4)关闭swicth-02交换机电源模块power 2。

(5)登陆swicth-01con口 ,ping连接至该交换机的主机服务器地址,以此来检测其连通性。

(6)登录swicth-01,查看二层拓扑:show spanningtree brief(是否为根),并查看三层拓扑:show ip eigrp neighbors。

(7)开启swicth-02交换机电源模块power 1。

(8)用sh power 命令查看交换机单电源模块power 1独立运行情况及耗能情况。

(9)开启swicth-02交换机电源模块power 2。

(10)登录swicth-02:用Show module和Show environment命令查看网控监控软件上各个设备连接状态是否正常。

(11)swicth-02交换机检查完成。

明确检查步骤后,可以估算每台设备的大致停机时间。如这台网络设备的停机检查时间需要15-20钟。此外,对于停机检查项目还应当制备详细的应急预案以保证检查过程中的安全性,并就停机内容与相关用户及保障单位进行充分的沟通。

3.3 确定停机操作计划

确定每一台设备的检查方案之后,将所有设备的检查方案整合,形成最后的停机操作计划。整合应当考虑设备检查的前后顺序以及影响,如检查量较大则可以并行安排以减少停机维护的时间,制定停机操作计划需要考虑以下三点:

(1)保证冗余设备或冗余链路不同时中断,如:不同时重启互为备份的两条链路的相关网络设备。

(2)为快速定位停机操作产生的意外故障原因,需保证单项功能设备链上同时只允许一处设备进行停机检查操作。

(3)在检查次序的安排上应尽可能安排较大风险的操作率先进行,以留有足够的时间应付突发事故。

预防性检查在事前有充分的准备时间,因此能够仔细考虑,合理安排、设计停机操作计划,这能把预防性检查风险发生的可能性降到最低。此外,由于停机时间是计划内的,停机前已与用户充分协调,用户已经做好了准备;且维护方对每一类设备,特别是高风险的设备都做好了应急预案,充分准备了抢险技术力量,因此,即使风险发生,用户和维护方也都能够从容应对,减少风险所带来的损失。

3.4 总结与评估

通过预防性检查,能够发现系统存在的隐患。仍以网络设备为例,在预防性检查中,我们发现了核心机房内的一台核心交换机电口模块无法在重启后正常启动;还有一台核心路由器广域网接口有一定数量的input error 与 crc 校验错误,丢包率在1%左右等等,这些隐患不通过系统的、全面的、深入的检查是难以发现的,特别是对于冗余设备、链路以及备份设备、链路等部件所作的检查,能够切实保障冗余、备用部件在紧急状况下发挥应有作用。

此外,在之后的评估工作中,对于网络设备,我们将重心放在了一些曾经有过错误日志的端口上。同时还对一些不规范标签、走线、资料等进行了整改,取得了良好的效果。

4 总结与讨论

有效运用预防性检查具有大量好处,如在可控状态下对设备进行检查,能够最大限度避免风险及对业务的影响,可消除故障后的修复性维修所产生的停机损失;全面、深入的检查可有效发现隐患,特别是通过检查能够验证冗余部件、备用部件的可用性。预防性检查具有预见性,如数据库、网络性能分析可有效跟踪、预见业务发展,提前发现系统将来的瓶颈及隐患,大大提高系统的保障水平。在实施过程中,尤其要注意前期的计划与准备工作的完善性。发现问题的同时最大限度避免风险才是预防性检查的关键所在。

[1]Barlow R E,Hunter L C.Optimum preventive maintenance policies[J].Operations Research,1960,8(1):90-100.

[2]Vaurio J K. Optimization of test and maintenance intervals based on risk and cost[J].Reliability Engineering and System Safety,1995,49(1):23-36.

[3]Bahrami G K,Price J W H,Mathew J.The constant interval replacement model for preventive maintenance:A new perspective[J].International Journal of Reliability,Quality and Safety Engineering,2000,17(8):822-838.

[4]Xia T B,Zhou X J,Xi L F.Multi-attribute Model for Dynamic Preventive Maintenance Decision with Hybrid Evolution Factors[J].Journal of Shanghai Jiaotong University,2009,43(5).

猜你喜欢

电源模块备件停机
GRAS发布新12Bx系列、支持TEDS的测量麦克风电源模块
中材机电备件有限公司
质量管理工具在减少CT停机天数中的应用
基于层次分析法的汽车备件供应商选择
基于元动作故障树重要度计算的备件预测
电源模块产品的智能制造探索与实践
西门子电源模块故障诊断方法研究
基于HANA的工单备件采购联合报表的研究与实现
雷克萨斯NX200t车停机和起动系统解析
欠费停机