APP下载

提升IT系统响应能力 联通极速开通系统凸显五大亮点

2017-07-15于慧珠潘相东

通信产业报 2017年23期
关键词:现网网元工单

于慧珠++潘相东

为了解决目前联通营业侧业务处理是单点系统处理,在全流程各子系统出现应用系统运行异常或者应用系统处理工单缓慢出现积压时,导致工单无法正常处理出现用户投诉,同时结合2016年3月北京联通为提升客户感知,改善服务质量,提出的信控业务全流程、全业务(含普话、宽带、移网)5分钟开通的目标,大唐电信旗下大唐软件提出了联通急速开通系统解决方案,将“提高系统反应能力,提高客户满意度”,作为联通极速开通平台的设计与实现的标准。

在此目标的驱动下,必须首先解决单点系统问题,为此提出开辟工单应急处理通道,在现有系统出现故障时,可立即切换到应急处理通道,进行业务工单持续处理(一阶段为复机业务),以保证5分钟开通目标达成。

联通极速开通系统的五个亮点

流程极简

信控业务全流程是指从计费定单开始,至网元施工结束。联通现网处理流程,由营业侧下发订单,timer扫描生成定单信息存储入Oracle数据库,通过工作流解析timer扫描定单生成工单信息存储入Oracle数据库,定单信息发送NAS,timer扫描NAS接受到的工单信息存储入Oracle数据库,通过timer扫描生成网元工单信息存储入Oracle数据库,组织网元工单下发网元执行,timer扫描报竣网元工单并同步工单信息存储入Oracle,NAS结果通知IOM报竣信息,timer扫描后,同步工单报竣信息存儲入Oracle,timer扫描后,同步定单报竣信息存储入Oracle,最后定单归档到Oracle。

从现网处理流程分析得出:现网系统高度依赖timer、数据库存在瓶颈、资源争抢激烈、过程冗余等问题突出。

联通极速开通系统处理流程由营业侧下发订单,生成的定单存入内存数据库,经过映射生成工单信息并同时生成网元工单,存入内存数据库。而后网元工单下发网元执行,网元工单报竣同步结果到工单和定单,然后进入结果上报流程,工单竣工后进行数据清理后归档到关系数据库保存备份。

联通极速开通系统不再依赖timer进行处理,而是引入异步消息队列驱动进行工单流程控制,并且把过程处理数据保存在内存数据库,去掉连接数据库并读取磁盘带来的开销,除外还去除原有复杂的工作流处理机制,精简中间处理环节,使处理过程更加简单高效。

云化架构

联通极速开通系统设计理念:云化架构,消息驱动,快速执行,它有四个特点。

第一,高速处理,全组件云化架构,MQ消息驱动,缓存加速,数据库分库分表设计,减少单表数据量。

第二,高扩展能力,各组件均可横向扩展,无性能瓶颈。

第三,高可靠性,多宿主容灾,无单点故障瓶颈。

第四,节省成本,去IOE,所有服务器使用PC服务器,不采用小型机、磁盘阵列。

多宿主容灾

只通过一条链路连接到单个主机节点的模式容易发生单点失效而导致系统瘫痪,而此问题对于分布式系统是不可行的。为此我们对sorl、redis、rabbitMQ和mysql进行集群,各个连接点实现主备实现,保证快速响应连接和数据一致性。如果出现单节点故障,不会影响用户使用和数据丢失等情况,实现多宿主容灾目标。

全流程实时预警

此系统技术复杂和组件繁多,如果系统出现异常,光靠人手动监控是不现实的,所以我们提供完整的监控预警系统。例如,在现网处理通道某个环节出现故障,监控预警系统会进行告警通知并切换到应急处理通道,保证故障实时处置,其它工单监控点还包括总工单数、未竣工工单数、在途工单数和已回单数等。在服务技术组件监控方面,我们对tomcat请求连接池、solr集群、redis集群、rabbitmq集群情况和zookeeper进行监控,为组件平稳运行提供服务。

高扩展能力

联通极速开通系统支持服务平滑扩容,如果联通极速开通服务器数量需要扩充或者裁减,只需要进行相应配置就可以实现,且在系统升级时也有安全退出机制,保证数据一致性。

服务组件扩容,在现有组件集群能力不能满足支撑时,可以动态平滑增加机器到集群中,组件能力过剩也可以满足指定机器从集群中删除操作。

服务数扩展,如果在当前系统某个模块并发数不足,可以在配置中增加并发数实现服务数动态扩展能力。

网元平台扩展,如果加入新的网页配置,只要加入配置启动信息和消息指向就可以完成扩展。

联通极速开通系统运行成果

运行情况和成果推广

在2016年7月4日12时17分05秒,现网产生积压、服务中断等核心故障,应急开机系统立即响应,于12时22分接收到切换请求,启动时长为1小时5分钟所得极速开通数据和现网数据对比图。期间应急开机系统接收复机数据量5833条工单,分别为移网号码5085、固网355、宽带393,执行成功5827,失败6(网元超时),执行成功率达到99.87%。

经过生产应用,切实解决了中国联通北京联通分公司出现工单积压现象影响停复业务的开机服务问题。同时,其自动切换的及时性,给信息化的运维工作带来了极大的便利。对于改善联通公司其它各省份信息化部,针对开机延时问题提供了行之有效的解决方案。

标准化实施

在此过程中,将系统服务运行的监控机制和服务异常时的应急处理机制不断进行标准化。

巩固期数据

我们对2016年7月-2016年12月缴费开机及时率进行了统计。在巩固期内缴费开机及时率稳定在99%以上的水平,目标达成。

极速开通平台集中体现运维服务体系建设,应包含运维服务制度、流程、组织、队伍、技术和对象等方面的内容。同时结合极速开通平台支撑的业务特色,整合运维服务资源,规范运维行为,确保服务质效,形成统一管理、集约高效的一体化运维体系,从而保障极速开通平台在集中的条件下,网络和应用系统安全、稳定、高效、持续运行。

展望未来,目前联通极速开通系统支撑停复业务是远远不够的,基于现有技术和系统不断成熟稳定,未来将支撑电信运营商营业侧业务的开通、撤销、开户、销户等全业务处理操作。

猜你喜欢

现网网元工单
基于量化考核的基层班组管理系统的设计与应用
基于transformer的工单智能判责方法研究
基于Relay架构的移动核心网方案研究
一种全网时钟同步管理方法
基于HANA的工单备件采购联合报表的研究与实现
电力95598热线全业务集中后的工单预警机制
Java EE平台在综合网元管理系统中的应用研究
S1字节和SDH网络时钟保护倒换原理
100G测试重心已向现网部署迁移