APP下载

内蒙古工业大学:让运维简单到极致

2014-08-08杨光

中国信息化周报 2014年22期
关键词:基本特征知识库工程师

杨光

规范高效的IT 运维服务管理方法,配合以准确全面的解决方案知识库,才会使工作变得从容有序。

随着计算机网络技术的蓬勃发展,网络的接入用户数量在爆炸式增长, 内蒙古工业大学以学校实际情况为例,开通用户数已近3 万人,白天平均在线人数多达1 万人。面对这样一个庞大的用户群体,网络的管理维护人员所背负的工作压力越来越大。这时再依靠个人经验的传统方式来进行基础网络服务工作将面临巨大问题,这不仅浪费宝贵的人力资源,而且效率也是非常低下。因此需要一套规范高效的IT 运维服务管理方法,再配合以准确全面的解决方案知识库,才会大大降低运维人员的工作压力,使工作变得从容有序。基于这样的需求,该校组织并实施了基于ITIL 和特征知识库的校园IT 综合运维服务系统的研发工作。

最佳距离度量算法

校园IT 综合运维服务系统的目标是建设一套符合ITIL 管理理念的网络中心业务服务管理信息系统,它能够针对用户遇到的网络问题,与现有网络管理系统相结合,实现网络设备运行数据获取,提供问题解决方案,以帮助运维管理人员快速准确地找到故障原因,并为用户进行解答。系统要降低故障诊断的专业性和难度,使网络运维工作人人能上手,人人愿出力。同时,通过事件流程的监督提醒机制,缩短事件处理的时间,促进网络中心服务承诺制度的落实。

在IT 运维中,某个故障都有区别于其他故障的明显特征,且有可能是多个特征。内蒙古工业大学网络中心颜培志说:“对于这些明显特征,我们称之为基本特征,是线性无关的。为了计算故障和解决方案的相似度,首先建立度量空间,将故障的每个基本特征定义为空间的一维,则整个空间的维数为我们日常归纳出的基本特征的个数,每个故障由其所表现的特征的坐标来表示。那么实际中的一个故障(即一个问题Problem)可定义为Pi,它由一些基本特征唯一确定,在度量空间中的坐标为(X1,X2,……Xn)其中n 为基本特征总数。同时,将解决方案(也即知识称为Solution)定义为Sj,同理也由基本特征惟一确定。再将Pj 定义为Sj 对应的故障,且假定Pj 与Sj 之间的映射为双射,即一一对应。将基本特征作为空间的基,将Sj、Pj 用其坐标与空间基的乘积表示,那么求解可能解决问题的Pi 解决方案的集合{Sj} 的过程就可以归结为求解问题空间中与点Pi 比较接近的点的集合的过程,这些点可以是已有的解决方案或已经解决过的问题。”例如,校园网用户电话报修,称其网卡灯亮,但上不去网。窗口服务人员利用网络故障特征检测辅助程序对其所在的交换机进行检测,检测到交换机可以PING通,但用户端口环路。这其中,网卡灯不亮、交换机可PING 通、端口环路都是基本特征,那么这三个特征即可表达为空间三个基向量产生的点P,通过度量算法找到与P 点距离最近的方案,就定位到了一个最佳的解决方案。

在特征知识库中,由网络工程师事先定义了环路问题的解决方案,它与点P 的距离最近,由此,不了解技术细节的服务人员就可以将这个最可能的解决方案提供给用户。

知识库的积累与更新

根据学校校园网的实际组成结构和运行状况,常见故障问题一般都有相对固定的现象。据了解,在本次项目中,运维管理人员对这些现象特征做了详细的总结和分类,形成了故障基本特征分类统计表。在表中又对不同分类级别的特征规定了一个数据库内的特征编号,由此形成特征分类数据库。

应用程序采用树形结构展现特征分类数据库,供窗口服务人员选择相应的故障特征。当分类级别最低的特征被选定时,其特征编号以及父分类的特征编号同时被取出,这些编号组合在一起就产生了本次选择的特征向量值,进而在知识库中选出与本向量值相匹配的知识库条目。

当知识库中未找到与特征向量相匹配的内容条目时,就说明知识库中缺少针对这种特征的解决方案,此时事件将转交到后台工程师来处理。后台工程师对事件进行跟进解决时,必须对缺少的知识库内容进行填写,后台程序把填写的内容与本事件的特征向量值对应起来并保存到知识库中,这样就形成了知识库的积累、更新功能。

系统的建设过程大致分为需求调研分析、系统设计、编码实现、测试等几个阶段, 总共历时1 年。系统建设工作由网络中心主任牵头,工作团队包括网络中心的信息系统管理部、网络运行服务部、校园卡服务中心等科室的多名一、二线技术人员。在建设过程前期的需求调研分析阶段,多次召开项目实施协调会,集中讨论系统建设的目标、使用需求、技术路线等重要问题。在系统设计工作完成后,所有参与人员共同讨论,论证系统的各部分流程、各种模型的可行性,为编码实现工作奠定了良好的基础。

本系统先从原有用户认证计费系统和网络监控管理系统中抽取原始数据,结合eService 系统数据如解决方案知识库等,来完成服务台流程。同时,服务台还可以延伸为自助服务模式,通过网站、自助终端、短信及语音网关等方式通过eService 系统的WebService 接口来获取用户所需要的信息。

系统初期的知识库建设工作主要由网络中心各科室的主要技术负责人来完成。他们先后查阅了两年所积累的近1000 份纸质工单记录,归纳出70 多项现象的特征,并有针对性地撰写出图文并茂的解决方案。

简化运行维护方式方法

据悉,该系统于2013 年初上线至今,经过几次优化调整,现已平稳运行,全面支撑起了网络中心的网络运维业务。工作中前台工程师为一线支持服务人员,在固定时间、固定地点接待用户上门或电话求助,受理用户申请办理的业务,对网络故障的求助提供初步的技术支持。当问题无法在前台解决时,可转交至后台工程师。前台工程师仅可以看到本人提交添加的事件,包括转交给其他角色的事件,并可以看到此事件的状态。当转交出去的事件长时间没有关闭时,需催促转交的后台工程师尽快处理事件。

据内蒙古工业大学网络中心老师介绍,后台工程师为二线支持管理人员,拥有较深的专业技术知识和处理问题的能力,熟悉信息系统和校园网,处理由前台工程师转交过来的事件,对大面积网络或系统故障进行调查处理,并根据需要生成片区故障信息。接到前台工程师转交的事件时,应该立即对问题进行诊断,当无法在远程调试解决或诊断为现场硬件故障时,需把事件进一步生成工单,安排现场工程师赴现场处理。

现场工程师为现场服务支持人员,熟练掌握现场维修服务需要的各项技能,完成后台工程师指派的维修工单,并在工单成功处理完成以后关闭工单。清晰的一线、二线、现场工程师工作角色及工作流程,配合故障自动分析判断功能,使系统在网络中心面向用户的服务中发挥了重要的作用。在受理的事件中,由前台工程师受理直接解决的简单重复性问题超过50%,不必再转交给后台工程师,很大程度上缓解了后台工程师的工作压力,也提高了用户服务体验度。

校园IT 综合运维服务系统将传统方式的校园IT 综合运维服务用遵循ITIL 框架的管理系统支撑起来,规范了业务办理流程,减少了人为因素产生的疏漏、推诿,提升了业务办理的效率和用户的满意度。简化了运行维护工作的方式方法,降低了工作中一些关键环节的难度,使得许多并不具备扎实网络技术的人员也能参与其中,既缓解了校园网维护人员人力不足的问题,又提升了大家的工作积极性。

相关链接

内蒙古工业大学前身为1958年在清华大学支援下成立内蒙古工学院,曾隶属机械工业部、农业机械部,1993年更名为内蒙古工业大学。学校已建设成为一所以工为主,工、理、文、经、管、法、教育、艺术相结合,具有博士、硕士、本科完整人才培养体系的特色鲜明的多科性大学。现设有24个院,拥有54个研究院(所);有博士学位授权一级学科3个,博士学位授权二级学科13个。

猜你喜欢

基本特征知识库工程师
深刻理解人类文明新形态的基本特征
《机械工程师》征订启事
论中国式共同富裕的基本特征
Kenoteq的工程师研发环保砖块
青年工程师
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
长株潭水生态系统基本特征及保护修复
高速公路信息系统维护知识库的建立和应用
基于Drupal发布学者知识库关联数据的研究
工程师变成“资本家”