APP下载

铁路数据中心基础设施管理系统的研究

2020-10-28何欣玲黄思炜

铁路计算机应用 2020年10期
关键词:数据中心架构基础设施

何欣玲,刘 宇,赵 天,黄思炜

(中国铁路信息科技集团有限公司,北京 100844)

中国铁路主数据中心是中国国家铁路集团(简称:国铁集团)最高等级的数据处理中心,承载着中国铁路集中应用系统部署及数据资源存储,承担着确保铁路核心业务安全稳定运行的重要使命[1]。为保证数据中心内信息化设施的正常运转,避免出现故障对数据传输、存储及系统运行的可靠性构成威胁,有效地支撑在数据中心上的业务系统运行,需要数据中心基础设施(供配电、UPS、空调、消防、环境和安保等)时刻为计算机系统提供正常的运行环境[2]。因此,如何对数据中心的动力环境、能耗、热场、容量及硬件设备运行状况等进行实时智能监控和一体化管理成为一个重要课题。

(1)中国铁路主数据中心承载了12306 网站、客票系统、调度系统等众多应用,服务器装机数千台,各类系统和资源众多,设备数量复杂庞大;(2)铁路数据中心基础设施管理存在诸多问题,如场地基础设施监控管理系统由多个相互独立的物理子系统组成,彼此缺乏互联互通;(3)场地基础设施监控不到位,未部署UPS 蓄电池监控设备;(4)信息化基础设施管理虽然比较成熟,但在监控管理与场地基础设施不能互动;(5)管理工具由于专业和岗位的不同导致工具离散化,造成不同系统之间的数据难关联、共享。

鉴于此,本文采用模块化的分层架构,各模块之间建立松耦合的关系,设计了适应中国铁路主数据中心需求的基础设施管理系统平台[3-5],实现信息共享、资源关联、统筹调度和可视化展示,提升了数据中心的服务能力。

1 数据中心基础设施管理的概念

数据中心基础设施管理(DCIM,Data Center Infrastructure Management)是指通过监控数据中心基础设施状态、配置、参数等运行信息,并对监测数据进行计算分析,实时掌握基础设施的运行情况,有效地管理数据中心基础设施、资源和能效[6]。

数据中心分层架构,如图1 所示。DCIM 的范畴就在于管理场地基础设施和信息化基础设施(硬件层)这两个层面的协同,通过采用统一管理平台对数据中心基础设施进行监控和管理保证数据中心有效性、可用性。

图1 数据中心分层架构

2 铁路DCIM 建设方案

按照DCIM 系统的数据收集、处理及服务的不同需求,可将系统分为数据采集层、数据处理和存储层、分析计算层和功能展示层。系统架构,如图2所示;技术架构,如图3 所示。

图2 DCIM 系统架构

2.1 数据采集层

数据采集层包扩采集信息点和监控单元[7],其中,数据采集信息点包括各类机房精密空调、温湿度、漏水设备、UPS、精密配电柜、电量仪、粉尘浓度、硫化氢、消防等信息,以及建筑设备监控、视频监控系统、火灾自动报警、能源管理系统等需要集成的系统。在本项目中,主要按照信息点各自所在的机房位置将数据采集层划分为不同的数据采集模块,每个机房和配电区房间作为一个独立的数据采集模块进行划分,根据信息点位的种类和多少配置相应的监控单元。

2.1.1 技术原理

采用RS485 等串口通信协议进行传,各底层子系统数据采集工作通过Modbus、JDBC、Bacnet 等协议实现,采集探针及采集组件对各协议参照协议点表对协议进行转换,转换后的数据统一放入Kafka 消息队列。

2.1.2 功能

数据采集层是系统的数据入口,通过全面的南向接口管理体系,与现场基础设施实时通信,并将接收到的数据转化为规定的格式,上送到数据传输层。

图3 DCIM 系统技术架构

2.2 数据处理和存储层

系统采用Hadoop 组件搭建大数据平台进行数据的处理及存储,Zookeeper 实现分布式协调服务,Yarn 负责统一资源调度管理。

2.2.1 技术原理

数据存储内容是所有被监控设备的各项指标数据,通过消费Kafka 获取。一部分通过存储应用处理保存到OpenTSDB 中,最终转发到大数据平台,进行历史数据分析、挖掘或者展示查询等。Redis 数据库中保存实时设备指标数据,对外提供数据查询接口,不同应用都可以通过对外开放的API 查询各设备的详细指标参数。

2.2.2 功能

各底层子监控系统通过标准的API 协议将数据传输到数据存储层,数据存储实现数据的清洗、治理、存储,为上层应用提供数据支撑。

2.3 分析计算层

数据分析计算分为实时计算和离线计算。Spark streaming 提供对实时数据的实时分析;MapReduce实现离线数据的分析,通过分布式计算,实现数据快速处理;Spark MLlib、Mahout 为智能分析提供通用的算法及工具,可以实现数据中心数据的智能分析。

2.3.1 技术原理

(1)告警及复杂事件分析

平台采用复杂事件分析处理引擎(CEP)[8],对告警信息进行过滤整合,将告警分析结果发送至上位系统进行故障派单。对于复杂告警事件,平台可对多条告警信息进行分析处理再转换为一条故障信息。

(2)统计分析

系统采用离线数据分析平台处理[9],只需要定义一个任务规则:时间为每天的凌晨(错峰),内容为从时序数据库中抽取日、周、月、年所需的数据,转换/加载(ETL)到数据集市(Data Mart)中,报表报告直接从数据集市中获取结果即可。

(3)容量分析

容量管理模块模型算法以差额分析法和比率分析法为基础[10],使用计算策略模型引擎,结合容量管理模块,综合容量参数计算容量变化情况和趋势。

(4)能耗分析

通过前端数据接入处理模型获取上海移动云桥、能率等IDC 数据中心基础设施用电数据汇总统计出数据中心的能耗系统图[11],通过统计分析模型和计算策略模型算出各模块能耗情况。

2.3.2 功能

分析计算层作为整个的核心数据处理单元,通过预设的各类数据处理引擎和工具,对全部采集数据进行质量控制、分析、计算、统计等处理,最终生成符合需求的数据产品,并通过北向接口为业务应用提供符合要求的数据。

2.4 功能展示层

系统实现的基础设施管理主要包括监控管理、资产管理、容量管理、能效管理、运维管理和数据洞察。

2.4.1 技术原理

功能展示层采用前后端分离的技术方案,前台通过Html,Jsp,jQuery 技术进行页面渲染,后台通过Spring,Hibernate 框架提供数据模型与业务实现。前后台通过Json 的方式进行数据传递。通过使用Activity 实现业务流程。

2.4.2 功能

基于B/S 架构的Web 服务及移动端服务(App、微信等),提供统一的实时数据、告警告知、报表报告及2D/3D 展示交互平台。

3 系统模块

3.1 监控模块

DCIM 系统主要用于采集全部机房基础设施的状态及参数、环境参数、第三方系统数据等,进行统一汇总展示及管理。DCIM 系统监控模块,如表1所示。

表1 DCIM 系统监控模块

3.2 管理模块

DCIM 系统的管理模块可实现如报警功能、数据管理功能、报表管理和日志管理等功能,详细情况,如表2 所示。

表2 DCIM 系统管理模块

4 结束语

数据中心基础设施管理系统是集监控和管理为一体,构建了“信息、资源、运维”的统一管理体系,通过监控和能效、资源管理等的统一构建,数据中心的运行效力和管理能力得到全面提升,也助力于数据中心的平稳、高效运行。本方案从数据中心基础设施管理需求出发,综合考虑监控、管理的对象和场景的需求以及现有监控工具的整合,构建系统模型分析算法,采用模块化的分层架构进行设计,形成数据中心基础设施智能监控和综合管理解决方案,为铁路数据中心基础设施管理提供思路。

猜你喜欢

数据中心架构基础设施
基于FPGA的RNN硬件加速架构
农业基础设施建设有望加速
公募基础设施REITs与股票的比较
浅析数据中心空调节能发展趋势
功能架构在电子电气架构开发中的应用和实践
前7个月国内充电基础设施增加12.2万台
构建富有活力和效率的社会治理架构
关于建立“格萨尔文献数据中心”的初步构想
新政府会计准则规范公共基础设施处理
2017第十届中国数据中心大会榜单