APP下载

银行业网络故障排查的方法研究

2019-01-06郝刚

电脑知识与技术 2019年32期
关键词:精准定位

郝刚

摘要:随着银行业对金融科技的重视程度不断增加,相应资金投入也越来越大,网络规模和复杂程度也较以往出现较大的增长,这对网络运维人员提出极大挑战,目前网络故障排查没有统一的办法,主要依靠个人的经验来判断,该文提出一种“立足源点,同类比较,精准定位”的网络故障排查方法,可以帮助网络管理员第一时间分析、排查、定位故障原因,解决网络故障,提升银行业网络故障应急处置能力。

关键词:网络故障排查;立足源点;同类比较;精准定位

中图分类号:TP393 文献标识码:A

文章编号:1009-3044(2019)32-0063-03

1概述

随着金融科技的迅猛发展,银行业在科技方面的投入不断加大,应用系统建设数量迅速增加,网络规模越来越大,拓扑结构越来越复杂,各家银行都在探索建立一种效率与安全并重的架构,可以为金融消费者提供满意服务的同时,抵御内外部的非法网络攻击,并在出现网络故障时可以第一时间定位、分析和解决。就网络故障排查方面,虽然目前市场上出现一些运用人工智能算法的网络故障定位分析工具,但这些工具在实际使用过程中,还存在一些缺陷,只能作为辅助工具,出现故障时更大程度上还是依赖于一线网络运维人员来排查和解决,在金融科技越来越得到行业和管理层重视的今天,网络故障导致的停止服务,属于重大信息安全生产事故,如何迅速排查解决网络故障,对于网络运维人员的知识水平和排查能力提出了极大的挑战。

2网络故障定义

网络故障是指由于硬件、软件的漏洞、病毒的侵入等引起网络无法提供正常服务或降低服务质量的状态。目前对于网络故障的分类网上有很多种。从范围角度来说,可分为广域网故障和局域网故障。广域网故障一般涉及外单位,从业务的角度来说,表现为外单位无法访问本单位提供的服务;局域网故障,一般在本单位内部,可能的表现为单位内部客户端无法访问某项业务。从故障类型来说,可分为线路故障、设备故障、配置出错故障等。线路故障可能是本单位设备间互联线路异常,也可能是与外单位互联线路异常等;设备故障又可分为端口故障、板卡故障、电源故障等类型。配置出错故障一般由于人为原因造成,在网络实施过程中,可能因为未考虑周全或个人粗心等原因,造成配置错误,从而导致业务访问异常。

网络故障多种多样,发生难以避免。但每家银行应该在设计网络架构时,具有一定的容错机制,在关键区域配置双设备、双线路,冗余路由协议,建立灾备中心等,保证在单设备、线路、单中心发生故障时,不影响网络和业务的正常运行。

3网络故障排查方法

目前网络故障排查没有统一的办法,主要依靠个人的经验来判断。笔者认为当出现网络故障时,应首先对故障原因进行分析,确定网络故障的影响范围,从而定位问题区域。在这里提出一种“立足源点,同类比較,精准定位”的排查方法。“立足源点”表示首先从故障源本身开展向不同区域的业务测试;“同类比较”的意思是寻找与故障点同级的设备或线路,进行相同的业务尝试。“精确定位”的意思是逐渐缩小范围,最后定位具体故障点;

下面从一线网络运维工程师的视角,结合笔者经验,通过几个示例,描述如何分析、定位、解决网络故障的方法。

(1)线路故障示例

具体网络拓扑见图1。

业务人员反映,通过客户端无法访问生产区服务器1。客户端均通过工作区的楼层交换机访问业务。根据“立足源点,同类比较,精准定位”的原则,首先立足源点,通过无法访问服务器1的这台客户端尝试访问服务器2、3、6,这三台服务器分别接人不同分区或不同的汇聚交换机中,通过这一尝试,基本可判断是网络故障还是系统故障,如果服务器2、3、6均可正常访问,则大概率为服务器1系统出现问题,此时再找另外一台客户端尝试访问服务器1,即可基本确定故障原因;如果服务器2不可访问,服务器3、6可以访问,则可判断大概率第一台生产区汇聚交换机上下行网络出现问题;如果服务器2、3无法访问,服务器6可以访问,则可判断大概率生产区网络出现问题;如果服务器2、3、6均无法访问,则需要进一步排查,此时可以分别找一台连接同一楼层交换机的客户端和连接不同楼层交换机的客户端来访问业务,以此判断故障范围。

在笔者亲历的情况是,服务器2,3均无法访问,服务器6可以正常访问,初步判断为生产区网络出现问题。笔者在客户端尝试登录途经网络设备,登录核心交换机、生产区防火墙均正常,但无法登录生产区汇聚交换机,判定原因为生产区防火墙与生产区汇聚交换机这一段出现问题,在机房查看设备物理状态发现,问题的原因是由于机柜门挤压,导致生产区汇聚交换机与生产区防火墙互联光纤折断。

(2)板卡故障示例

具体示例见图2。

本单位属于银行省级节点,承担着上联总行,下联地市、县行的中间枢纽角色,具体在网络拓扑图上,该行通过上联路由器与总行相连,通过下联路由器与地市、县行相连。地市行网络运维人员反映,通过网络管理系统发现,该行至省行电信线路中断,联通线路正常运行,经联系电信运营商排查,运营商广域网线路正常。按照“立足源点,同类比较,精准定位”的原则,省级节点网络管理员对其他地市行至省行的电信线路进行监测,发现所有地市行至省行线路均为中断状态,初步判断原因为电信端下联路由器故障,继续围绕电信端下联路由器分析定位原因,可能为端口故障,板卡故障或配置错误。登录设备后发现,下联县行电信线路正常,连接防火墙线路正常,但与上联路由器互联线路不正常。不正常的两条线路均处于一张板卡上连接,其他状态正常的线路端口均在不同板卡上连接,判断为电信路由器板卡故障导致,更换故障板卡后线路恢复正常。

(3)路由路径不一致导致的业务故障

具体示例见图3。

机构A1,A2...An均需要访问机构C提供的业务,机构B-方面与A1,A2...An连接,一方面与机构C连接,承担着网络中继的角色,机构A1,A2...An,机构B均将左侧路由器作为主路由器,机构c将右侧路由器作为其主路由器,正常的网络流量路径如图中所示,以机构A1为例,流量路径为:机构A1主路由器一机构B主路由器一机构C备路由器一机构C主路由器一机构B备路由器一机构B主路由器一机构A1主路由器,业务可正常访问。但在某日机构B出现线路故障,机构B主路由器与备路由器之间互联线出现中断,如图4所示。

机构A1向机构B和机构c反映,访问机构c业务中断,作为机构B的网络管理员,按照“立足源点,同类比较,精准定位”的原则,首先要求机构A1访问机构B的业务,可正常访问;然后向机构A2,A3等同类机构询问,均表示可以正常访问机构C业务。在这种线路异常情况下,网络流量路径为:机构A主路由器一机构B主路由器一机构C备路由器一机构c主路由器一机构B备路由器一机构A备路由器。路由路径较正常情况出现变化,流量从机构A的主路由器来,从机构A的备路由器回包,但在所有A1,A2…An机构中,只有机构A1访问业务中断,将问题定位于机构A1网络内部,可能由于网络架构的设计问题,机构A1网络拓扑简图见图5。

以机构A1的视角来看,访问机构c业务的流量路径来回不一致,机构A1内部存在两台防火墙,两台防火墙未做状态同步,这种情况下,如果路由不一致,会导致网络中断的现象,以此定位了问题故障原因。

4结束语

银行业网络规模越来越大,对运维人员提出了极大的挑战,除了要求网络管理员会熟练使用网络运维工具之外,还需不断提高自身知识水平和应急处置能力,本文提出的“立足源点,同类比较,精准定位”的网络故障排查方法,可以帮助网络管理员在网络故障发生后,迅速分析、排查、定位故障原因,第一时间解决故障,保障业务连续性和安全陛。

【通联编辑:代影】

猜你喜欢

精准定位
浅析新媒体时代广播的创新与发展
走进试题作业深处
也说语文高效课堂
郫县:“精准定位”协作模式 整合派驻机构审查力量