APP下载

合监控管理系统在数据中心中的应用

2019-07-10张楠

关键词:场地设施数据中心运维

张楠

上海建筑设计研究院有限公司 上海 200041

0 引言

数据中心场地设施包含电气、暖通制冷、消防、安防等众多子系统,设备种类繁多、功能各异。为提高数据中心智能化管理水平,实现综合信息管理的“大数据式运维”,将各子系统数据集成于统一的场地设施监控管理平台上,实现各子系统间实时互连互通、信息共享,以便全面分析、掌握场地设施的运行信息、预见潜在故障、指导运维操作、辅助远期决策,从而实现运筹帷幄、统一指挥,提高场地设施运行稳定性、安全性、可靠性的管理目标。近期出台的GB50174-2017《数据中心设计规范》强制性国家规范中,也对数据中心的环境和设备监控提出了明确的要求,充分说明了综合监控系统在数据中心建设中的重要性。

本文主要以综合监控系统中模块化架构为例,介绍其在某数据中心建设中的应用情况。

1. 工程概况

某数据中心建设项目,机房建设面积约1000平方米左右,机房区域位于大楼一层,ECC数据中心总控中心、应急指挥室位于大楼二层。一层包括以下功能区:UPS配电间,电池间,IT机房、电信间、消防钢瓶间、工作间,参观通道等;二层包括以下功能区:ECC数据中心总控中心、应急指挥室。总体规划共161个机柜。

根据设计要求,设置数据中心综合监控系统,集中监控场地设施工作状态,及时了解数据中心的全面运行状态。

2. 系统架构设计

2.1 系统物理架构设计

系统基于网络分布式部署,运维网络内的任意一台或多台集成工作站,运维人员权限相同时,系统将以相同的界面操作,管理整个机房权限范围内的子系统,并具备授权的所有操作功能。

数据采集层

数据采集处理层设计为系统的数据入口,是系统管理所需基础设施数据的来源,其通过架设嵌入式采集服务器,接收前端系统(如:电力监控系统、暖通制冷监控系统、安防系统、消防系统等)的监控数据。然后由采集服务器将数据汇总到上端集中处理平台。

嵌入式采集服务器具备独立的机房实施监控功能,具备完整的数据采集、数据存储、数据分析功能,采用嵌入式服务器的优势在于将数据的采集分析交付于前端完成,相对于串口服务器版本,可极大的降低后端系统负载,提供系统容量及可靠性,同时系统的独立特性在网络中断时可在本地提供基本监控功能,保障监控持续不中断。

数据管理层

数据管理数据管理通过架设两台管理服务器来实现真个平台的数据管理及数据展示功能,提供包括数据分析、设备监控、2D/3D展示等功能。同时针对金融客户对安全的高要求,我方系统采用双机冗余设计,主备服务器相互监测,任一一台服务器宕机不影响系统正常运行,系统切换无需人工干预。

系统提供独立的告警网关服务器,可通过短信、电话、声光、邮件等方式向用户推送告警信息。后续也可扩展对接用户短信告警平台或其他告警管理平台。

数据展示层

展示层提供丰富的展示媒介,提供友好的用户交付界面。随着应用设备的发展,根据应用需要,在应用层增加相应的展示模块,即可实现多样的展示方式。

3. 综合监控系统的特点

综合监控系统具有功能多样、可靠性高、稳定的特点。通过实时与基础设施通讯交互、智能分析控制,人性化界面展示让运维人员及时了解数据中心健康状况,保证数据中心安全运营。通过全面的信息进行定位故障根源,屏蔽关联告警,避免一次出现大量告警误导运维分析,提高运维效率。通过对系统可用性的不同影响程度进行分级告警,杜绝以前单个测点判断故障带来的片面性。通过大数据分析实现趋势判断、系统隐患发现,做到事前预防、辅助远期决策。

4. 综合监控系统的功能

4.1 监控报警

主要功能包括:(1)低压配电监测(三相及各相电压、电流、有功功率、无功功率、频率、功率因数、视在功率、有功电度、无功电度等参数进行数据采集;系统能对开关状态进行实时监视)(2)UPS监测(模拟量的监测,主要包括:输入电压、输入电流、输入频率、负载电压、负载电流、负载频率、旁路电压、旁路电流等。(3)精密空调监测(温度、湿度、温度设定值、湿度设定值、空调运行状态、风机运转状态、压缩机运行状态、加热器加热状态、加湿器加湿状态、压缩机高压报警、风机过载、除湿器溢水、加热器故障、气流动故障、过滤器堵塞、制冷失效、加湿电源故障、压缩机低压报警、压缩机高压报警等(4)温湿度监测(系统能实时监测机房内的温度值和湿度值)。(5)漏水监测(系统能实时显示并记录漏水线缆感应到的漏水状态)(6)蓄电池监测(电压监测、内阻监测、电流监测、温度监测、异常报警、内阻监测、自动编址)

4.2 双机冗余管理

主要功能包括:系统采用双机热备模式,利用“双监控系统+双数据库”模式,平台架设二台集中监控管理服务器,分为集中监控管理主服务器、备份服务器(主备服务器内均含数据库),同时架设一套磁盘阵列,将数据库文件内容即监控数据存放在磁盘阵列中。

系统设置两台服务器分别作为主、备机,同时系统虚拟一个服务器,两台的物理的服务器和一台虚拟的服务器通过一个内核模块相互连接。系统对外提供虚拟服务器的IP地址供客户端访问。

当主机运行正常时虚拟主机与主机相连,一旦主机宕机以后,利用内核模块虚拟主机自动与备机相连。整个过程无需人工干预,切换时间小于10秒,同时对前端的所有操作没有任何影响。当主机恢复后,备机自动释放主动权,并对这段时间所产生的数据与主机进行同步。

4.3 能效管理

主要功能包括:(1)PUE指标计算(2)子系统能耗展示(3)指标计算

4.4 人机界面

主要功能包括:系统给予不同角色拥有自己对应的个人工作台,在工作台中,显示自己关注或与自己相关的监控管理工作,以便只要打开DCIM客户端,就能立即查看自己所关心的、自己所要做的工作。

不同的用户角色,不同的权限看到不同的内容,执行不同的操作。个人工作台会把和每个人相关的任务推送给他,也会把执行任务所需的信息和他所关注的信息推送给他。进入个人工作台就能够完成任务,当需要更多信息时才进入到各个模块中。

基于对用户的管理,系统在展示界面中以“个人工作台”体现角色的分配,根据人员所处的“管理”、“决策”、“执行”层级自行定义用户的工作台界面。

4.5 告警管理

主要功能包括:(1)基本告警功能(2)告警统计(3)告警事件生成(4)告警联动(5)告警分配(6)告警展示(告警过滤、报表管理功能、远程管理功能、容量管理)

4.6 监控界面-3D

主要功能包括:(1)数据中心场景导航与展示(2)场景漫游(3)基础设施监控报警与定位(4)3D交互-测点信息查看(5)3D虚拟巡检:系统内建虚拟巡检任务,按预设巡检路线对机房设备进行巡检。

5. 结束语

数据中心具有一定复杂性,随着业务的不断发展,管理的任务必定会日益繁重。所以在数据中心的设计中,建立一套全面、完善的机房管理和监控系统是十分必要的。综合监控系统作为一种实时监测预警系统,在数据中心中被广泛应用,其简单的系统架构有效的实现了数据中心基础设施的实时监测,并反映出设备的实时工作状态,保障了数据中心的正常运行。

猜你喜欢

场地设施数据中心运维
酒泉云计算大数据中心
浅析数据中心空调节能发展趋势
辽宁省冰雪场地设施资源配置均等化研究
精准定位,强化服务
——高校体育场地设施管理工作的创新实践
关于建立“格萨尔文献数据中心”的初步构想
运维技术研发决策中ITSS运维成熟度模型应用初探
风电运维困局
杂乱无章的光伏运维 百亿市场如何成长
基于ITIL的运维管理创新实践浅析
基于云计算的交通运输数据中心实现与应用