APP下载

电力应用业务的网络性能及故障分析

2018-11-09彭祥礼

网络安全技术与应用 2018年11期
关键词:网络服务视图故障诊断

◆郭 岳 彭祥礼 袁 慧 庄 严

电力应用业务的网络性能及故障分析

◆郭 岳 彭祥礼 袁 慧 庄 严

(国网湖北省电力有限公司信息通信公司 湖北 430070)

本文基于网络探针收集链路流量的方法实现对电力应用业务的一个软件系统和电力应用的业务路径进行分析和梳理,对服务路径图和应用的性能指标进行监控分析,并提供精细化、可视化的网络性能分析视图,从而实现快速判断网络故障,优化网络流量,提高网络效率。

网络性能;链路流量;网络探针

1 研究背景

随着国网应用业务的发展计划,信通公司也完成了省一级的数据大集中。完成了营销系统的省级归口,也对PMIS,GIS等业务系统进行了2.0版本的升级。新系统采用了行业主流的SOA架构,以服务为导向,各组件协同工作,松耦合结构,为日后的系统扩容和升级提供了良好的基础,提升了系统的业务水平、业务能力和处理效率,但SOA的架构也给运维带来了挑战。

同时,国网对省公司的一类和二类业务系统有着严格的考核指标。通过国网统一部署的IMS3000对省公司的34个业务系统进行实时的监控(5分钟一次的业务可用性监控),一旦出现30分钟的业务连续停止,自动计入考核。

为了更好的实现业务监控,将运维从被动变得主动。本文在原有传输设备、网络设备、主机等设备监控系统的基础上,实现面向业务的网络信息安全监测与预警分析,通过应用传输通道的最小单元监控,进一步分析网络、系统及应用的运行情况。在出现故障时,及时发现并告警,并定位故障节点与组件。

2 研究方法及实现

2.1 方法概述

此方案利用采集和分析网络数据包来实现对重要链路、关键设备和核心服务的监控。如果要建立横跨两个数据中心的全面的监控视图,数据采集需要覆盖到这两个数据中心的重要链路、关键设备和核心服务。数据采集可通过交换机把数据镜像(SPAN)分别送给位于两个数据中心的流量管理设备,如图1所示。

图1 流量监测数据接入平台

2.2 部署架构

从省公司网络管理的实际需求出发,在省公司数据中心统一部署网络流量分析探针和统一分析服务器,实现省公司的一类和二类业务系统网络性能的实时监控。

2.3 数据捕获

为了更精准获取分析数据,在业务系统服务器的接入层交换机上实现对应相应端口的流量镜像。镜像过来的流量可以引入到流量分析探针。

以PMIS为例,如图2。

图2 捕获示意图

2.4 实现功能

以业务真实路径为视图基础,提供端到端的网络安全测量与预警:

它们在动!猛然意识到了这一点,他的汗毛都炸了起来,本能地向下一缩身子,四只节足弯曲蓄势,另外两只则高高扬起,横斜在身前,做好了随时攻防的准备。

①实现网状化的服务路径图;

②实现实时分析比特率(Mbps)、连接数、响应时间(ms)等网络指标;

③实现即时告警,点击告警条目可由告警关联到视图进行深入分析。

2.4.1监控自动化

①业务路径自动发现

依托于真实网络流量,实现应用服务路径的可视化,为IT部门提供准确有效的应用组件,交付设备之间的访问依赖关系信息,并且可以被持续管理,为应用项目的建设、监控、排障、迁移提供可靠的信息实现。

②业务应用自动发现

实现自动发现知名应用,自动发现私有应用及自定义应用。应用发现有两种模式,分别是发现模式和列表模式。发现模式中,被管理流量中存在的知名应用、私有应用以柱状图的方式呈现,并且可视化了流量的覆盖率。

2.4.2故障诊断自动化

故障诊断模块可以直接分析采集的数据资源,通过数据分析,提供故障诊断和定位信息。

①自动故障诊断与定位概览

②自动故障诊断报告

诊断报告主要汇集各项诊断指标结果,以及给出故障主要原因,如图3。

图3 自动故障诊断报告

2.4.3指标统计分析及追踪

实时统计网络服务的指标数据,通过服务路径图导航,总体指标分为:可用性、性能、负载量三大影响网络服务质量的关键因素,提供历史数据的保存和查询,把握网络服务状态。

(1)负载量统计

对于网络服务负载量,主要统计指标包括:总体流量、客户端数量、并发连接数。其中,总体流量表征了当前选择的捕获点或者主机为该网络服务所产生的流量。

(2)可用性统计

网络服务的可用性,主要体现在建立连接是否成功,连接通道是否正常运行这两方面。可用性统计指标包括:TCP SYN、TCP FIN、TCP RESET三个基础指标,以及建连失败率统计。

(3)性能统计

性能指标主要分析TCP连接通道的传输性能,直接关系到网络服务快慢的评估,性能指标包括:TCP零窗口事件、TCP重传数量。

其中,TCP零窗口事件记录了服务器、客户端的TCP协议栈出现0窗口事件的次数,若连续出现大量0窗口事件则表明系统资源不足导致性能下降。

2.4.4所见即所得报表

①实现生成周期报表和即时报表,以及进行自动故障诊断的结果报告。

②周期报表按照一定周期自动产生,例如每天、每周和每月。内置数种报告模板,包括容量规划、服务性能等。

③即时报表可在操作链路视图、设备视图时,随时点击“即时报表”直接生成PDF。

3 研究结论

通过上述研究及实验,达到下述目标:

(1)提高系统运维能力及故障定位响应能力,降低网络问题导致的业务中断时长;

(2)降低网络故障分析的人力成本,有效降低由于故障分析所耗费的大量人力资源、时间;

(3)建立了围绕应用的网络性能监控的视角,评估网络对业务性能的影响,在发生故障时,能在业务的视角分析问题;

(4)提供系统优化的网络性能指标数据,帮助优化业务系统性能,提高业务运维人员使用体验及满意度。

[1]上海天旦公司.NPM产品技术白皮书[M],2014.

[2]上海天旦公司.NPM测试报告[M],2014.

[3]Mani Subramanian.网络管理—原理与实践[M].高等教育出版社,2002.

[4]Larry L.Peterson.计算机网络(第二版)[M].机械工业出版社,2015.

猜你喜欢

网络服务视图故障诊断
基于包络解调原理的低转速滚动轴承故障诊断
网络服务合同的法律问题研究
基于网络服务者在侵权法中的应用分析
Web Services整合机制研究
数控机床电气系统的故障诊断与维修
网络服务行为的可罚性
5.3 视图与投影
视图
Y—20重型运输机多视图
SA2型76毫米车载高炮多视图