APP下载

简论校园IT系统中的故障检查
——以几次故障处理过程为例

2015-08-23林洋

吉林广播电视大学学报 2015年10期
关键词:网络管理员网络管理交换机

林洋

(吉林广播电视大学远程教育技术中心,吉林 长春 130022)

简论校园IT系统中的故障检查
——以几次故障处理过程为例

林洋

(吉林广播电视大学远程教育技术中心,吉林 长春 130022)

校园网IT系统的运维相对简单,但出现故障在所难免,本文从硬件、网络、业务三个角度出发,以几个故障处理为例,讨论校园网的网络故障处置方法和运维思路。

运维;检查;故障管理

IT系统具备相当的复杂性,为保障其可靠运行,在系统设计阶段即应进行合理的拓扑规划和架构设计,仔细考虑当前系统建设需求和未来的需求增速;进行设备选择时,在满足当前需求的前提下,需要权衡各个设备在价格和性能方面的平衡。

尽管如此,与所有网络管理者的意愿相违,IT系统通常处于不稳定的运行状态之中,它随时可能因为各种各样的环境威胁、恶意攻击以及源自于硬件和软件的冲突甚至服务等故障导致业务崩溃。因此,网络管理员还需要提前制定各类故障的对应处理规划和应急方案,以尽量保障系统的稳定、持续和可靠运行;在网络运行期间,管理员应定期或不定期从多个维度对整个网络进行检查,包括硬件运行状态、数据包状态、服务状态、生产业务状态等。事实上,对网络运维管理而言,预防手段远比故障的及时处理更加重要。

我校网络系统拓扑结构(2008年)

本文以几个故障的实际处置为例,尝试探讨校园IT系统中的运维方法。

一、交换机端口/板卡故障

学校在早期的网络建设中,从节省资金考虑,并未设置完整的网络接入层,因此大量教师所属的终端电脑直接通过双绞线上行接入核心交换机,为此核心交换机配置了多个高密度千兆电口板。这种做法的好处是网络拓扑结构简单,终端PC接入互联网的物理路径最短,效率最高,网络管理手段简单、直接且有效;但这种结构在网络体系的安全运行方面存在很大风险。某日雷阵雨,第二天网络中心即接到终端用户的故障申报,部分终端无法联网,且显示为本地网络连接物理断开。经检查,发现故障范围局限在核心交换机的特定板卡,且同时存在于该板卡的第1-8端口。根据板卡的厂家描述,该48口千兆板卡的物理结构为每8个端口由一块芯片集中处理网络请求,因此实际上48个电口数据由6个处理芯片分别处理,并最终汇聚到核心交换机的背板通道。根据以上信息,结合现场实地考察,又发现出现故障的办公室大部分位于楼宇顶层。据此我们可以做出推断:雷阵雨发生后,终端计算机和双绞线链路上堆积了大量电能,而无论是网卡还是交换机板卡,都只能在较小范围的弱电区域工作,当终端集中开机,较高电压带动电流通过双绞线,击穿了这8个端口的后端处理板。事实上在事后的故障检查中,还发现了一些网卡损坏的情况。

在网络设计和规划中,尽管预算有限,也应考虑环境因素对网络安全体系的重大影响,并作出合理安排。如上例所述,对存在雷击风险的终端电脑、设备应尽早部署防雷击策略,同时增加网络接入层设备部署,使得风险发生时,缩小设备故障影响的范围以及降低设备资源损失。

二、基于IP的故障检查

网络层IP常见故障主要有两种:ARP攻击和IP盗用。

2006年至2008年是ARP病毒泛滥非常严重的时期,此后主要IT设备厂家和软件厂家针对ARP提出了许多管理策略和攻击防护手段,然而直到今日,ARP攻击仍旧是校园网内的严重安全威胁之一。

以太网ARP数据报文格式

如图所示,在典型的TCP/IP园区网中,终端和网络设备需要维持自己的ARP表,用以实现二层地址转发和三层网络地址转发,而攻击者则首先获取网关MAC地址,进而伪造以太网ARP数据包,将自己的MAC地址置于广播报文源地址中,并在二层域中广播,所有接收广播报文的终端被迫修改网关MAC地址(在没有防护的情况下),使得数据流向从正常的网关地址转移到伪装网关的地址上来。此举的主要目的是欺骗,并获取敏感信息,但大量数据的异常流向,会导致整个网络效率低下,并阻碍多数数据包返回到正确地址,因此用户无法正常连接到互联网。

对于地址欺骗,普遍的做法是使用带网管的网络设备开启ARP攻击防护,确定合理的MAC刷新阈值,以减少网络风险。在终端位置,可以考虑使用ARP防护软件或其他综合安全软件,自动绑定网关地址,拒绝ARP欺骗。

校园网内常见的网络故障还包括IP地址盗用。在很多情况下,网络中的一些位置、某些部门不适合实施DHCP分配策略,此时需要对所有相关终端手工分配IP地址,但网络管理者无法总是要求用户始终保持IP地址正确,而事实上用户恶意修改地址的情况也经常发生,修改者并不了解整个网络的拓扑情况和IP规划,随意配置IP,经常导致其他同IP用户无辜断网。

对于IP地址分配,网络管理人员需要在网络规划阶段仔细考虑用户需求,对无特殊需求的用户提供DHCP服务,对需要提供审计和存在敏感信息的部门,必须实行地址绑定措施,必要时额外分离VLAN区域,降低IP冲突风险。此外的办法是增加网络审计设备,对用户的网络连接进行身份验证和计费。

我校网络中心采取了严格策略,即终端MAC地址、终端IP地址、链路、交换机端口、VLAN的完全绑定,任何终端只能从指定链路,以指定的地址访问网络,否则不予接入。在网络管理方面,网络中心长期维护学校全网的地址绑定表格,每次变动都需要再次登记,从而保证了用户的合法网络权益,并对非法用户的连接请求进行管理和直接拒绝。2008年起,在我校接入带宽十分紧张的情况下,网络中心通过这样严格的绑定策略,使得用户的基本接入需求得到有效保障。

三基于业务的健康检查

作为对外提供服务的窗口,学校通常需要建设专署网站,以WEB方式提供各种教育信息和教学服务,但提供服务即意味风险,风险既来自外部,也来自内部。

2008年12月30日,我校对外网站窗口遭受连续SQL注入攻击,主页面临被篡改风险,网络中心立即启动应急响应,并与网络安全设备厂家联合,分析攻击来源并进行防护。经检查,发现对基于七层协议的SQL注入攻击,当时的IPS设备尚没有可靠抵御手段,因此又改为手工检测,最后从IIS日志中分离出攻击代码,代码如下:

2008-12-3000:15:21GET/xb/file.asp

fileid=1999214006;dEcLaRe%20@S%20VaRcHaR(4000)%20SeT%20@s=cAsT(0x4445434C415245204054205641524348415228323535292C404320564152434841522832353529204445434C415245205461626C655F437572736F7220435552534F5220464F522053454C45435420612E6E616D652C622E6E616D652046524F4D207379736F626A6563747320612C737973636F6C756D6E73206220574845524520612E69643D622E696420414 E4420612……F5354415455533D302920424547494E20455845432827555044415445205B272B40542B275D20534554205B272B40432B275D3D525452494D28434F4E5645525428564152434841522834303030292C5B272B40432B275D29292B27273C736372697074207372633D687474703A2F2F636E2E64617869613132332E636E2F636E2E6A733E3C2F7363726970743E27272729204645544348204E4558542046524F4D205461626C655F437572736F7220494E544F2040542C404320454E4420434C4F5345205461626C655F437572736F72204445414C4C4F43415445205461626C655F437572736F72%20aS%20VaRcHaR(4000));eXeC(@s);

--80-211.117.95.48Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.0)200064421

此后,开发人员针对网站专门完善了SQL注入攻击的代码防护,此后网络中心于2014年购置WAF防护设备,目前已能以较高水平对网站进行安全加固和防护。

从这次攻击的过程来看,基于防火墙/IPS的传统网络安防体系已不能对网络安全提供完整保护,特别是网络需要提供对外WEB窗口时,网络管理员需要重新规划web安全体系,并与现有网络安防体系有机整合,从抵抗病毒入侵、低水平黑客攻击、社会工程学攻击、跨站攻击、网络渗透甚至DDOS攻击等多角度出发,仔细考虑网络安全需要,寻找合适、合理的方法,选择专门的防护设备,从而实现策略可靠的网络安全部署。目前较为普遍的作法是在网络拓扑中设计明确的网络边界,如用户区域、计费区域、DMZ区域、存储区域等,而WEB服务通常位于DMZ区域,在网络管理中,需要在防火墙上配置各区域的边界策略,严格数据流向审核措施,在可能的情况下对数据进行多层协议审核,并保留系统运行日志。

四、网络故障管理的基本思路

不出现故障的网络才是健康的网络,对网络管理者而言,这是网络运维和管理的最终目标,在达到这样理想的状态之前,本文提出以下建议:

1.未雨绸缪:在网络设计和规划阶段,仔细审核和考虑网络需求,网络拓扑设计应具有弹性,IP合理规划,网络核心和关键设备应具备冗余能力,对各种意外和风险有所准备。

2.认真细致:网络管理和运维是一项长期且枯燥的工作,网络管理人员应熟悉每一台设备、每一个业务、每一项服务的初始状态、正常状态和故障状态,并在问题即将出现前有所警觉,在故障发生时能及时发现。

3.完善日志:在网络运维中,一个有意思的现象是大部分故障的发生具备前后关联性,网络管理员应当做好网络运维日志,在系统运行正常时记录设备运行状态,在设备故障时记录故障状态,在状态比对中经常能发现故障具体位置和原因;此外,对故障处理的完整记录也有助于下次故障的原因倒查,因此保持完善的网络运维日志,可以减少故障定位时间,加速故障处理进程。

4.经常检查:大多数的网络风险发生在网络管理员最懈怠的时候,特别是黑客攻击概率在每天的零时前后最高。因此网络管理员应当制定网络安全检查制度,定期或不定期对网络设备、网络数据、业务数据进行检查,发现风险及时处理,防止风险扩大并变成具体威胁。

5.应急策略:网络故障的发生总是意外的,突发的情况更能考验整个网络的综合素质。因此管理员应尽量事先考虑所有的安全风险,制定风险预案,在故障发生时应有法可依,有据可查,快速恢复业务。

网络运维是长期持续的过程,保障网络健康是长期的和艰苦的工作,网络管理员需要以耐心、细致的态度对网络进行管理。本文仅从我校网络运行的实践经验出发,讨论网络管理的基本方法,抛砖引玉,恳请广大同行指导。

[1]彭海深.网络故障诊断[M].科学出版社,2007.

[2]李强.浅谈计算机网络故障诊断和排除方法[J].中国电子商情:科技创新,2013,(22).

[3]Tursunjan.Mama.关于网络故障诊断和排除方法的讨论[J].网络安全技术与应用,2013,(11).

TP391

A

1008-7508(2015)10-0144-03

2015-07-11

林洋(1980-),吉林长春人,吉林广播电视大学远程教育技术中心讲师,研究方向:网络运维。

猜你喜欢

网络管理员网络管理交换机
院校网络管理员基本素质与技能探讨
修复损坏的交换机NOS
提高图书馆网络管理员技术服务水平的途径
电动汽车充电服务网络管理初探
使用链路聚合进行交换机互联
基于EOC通道的SHDSL网络管理技术
PoE交换机雷击浪涌防护设计
罗克韦尔自动化交换机Allen-Bradley ArmorStratix 5700
校园网络管理及安全防护
卫星导航网络管理设计