APP下载

探讨数据中心自动化运维平台的设计与实现

2021-02-26

科学与信息化 2021年4期
关键词:备份数据中心运维

上海华东电脑股份有限公司 上海 200237

自动化运维的优势是有效避免了人工操作失误,显著提升了运维效率。但以现阶段的计算机技术、软件水平并不能真正实现全自动化的运维工作,还需要借助运维管理方法来维持数据中心的正常运行。

1 数据中心与自动化运维的概念

1.1 数据中心

数据中心指的是基于Internet网络建立的集传递、展示、加速、计算、存储功能于一体的信息化设施。维基百科对于数据中心的定义,重点强调了其复杂性,不仅包含计算机系统以及相关的配套设备,还包含了一系列冗余、复杂的数据通信连接、环境控制设备、监控设备等。《The Datacenter as a Computer》一书中对数据中心的定义是:多功能建筑物,可容纳多个服务器与通信设备。这一定义并不仅仅是局限在服务器物理方面的集合,更多的是指维护这种服务器的便捷性。数据中心有两个显著特征:一个是总的网络带宽容量;另一个是在网络中的作用。正因如此,数据中心在信息化建设中才具有不可替代的重要作用。

1.2 自动化运维

至今为止,计算机运维已经经历了漫长的发展时间,从个别服务器整合成庞大的数据中心,步入了自动化状态。运维的自动化明显减少了递延现象,还能减少人工工作量以及重复劳动的时间,显著提高运维工作效率。自动化运维系统极大地满足了自我监控的需求,能够提前预估各种风险,并及时发布风险预警信息。自动化运维平台功能主要由以下几方面构成:

(1)自动监控:自动监控功能通过对比、分析数据,第一时间发现系统存在的偏差,并进行自动评估和上报,避免了人为操作的道德风险与失误。

(2)自动提示:自动化运维平台需要先分类任务内容与形式,按照既定流程执行。如果自动化平台发生故障,平台就会向运维人员发生预警信息,并显示 错误代码,运维人员可以及时采取措施排除故障。

(3)自动检测:自动检测功能可以让运维人员更好的评估软件的实际配置和计划配置的符合程度,对于不符合匹配的部分做出调整。

(4)自动记录:为了提高自动化运维平台的溯源,应采集、分析每一层级、每个过程的数据,通过详细的数据记录,可以全面了解故障类型,明确故障原因,保证自动化运维平台运行的稳定性[1]。

2 数据中心自动化运维平台的设计

2.1 平台的技术架构的设计

自动化运维平台的设计方案主要可采用分层分块的设计思路,以层次结构化为基础,建立可视化层、业务核心层、云平台层以及权限认定管理系统,详见图1。

图1 自动化运维平台技术架构图

(1)管理可视化层:这是自动化运维平台的管理界面与信息展示区域,包含了四个功能区,分别是云平台管理、流程资源管理、自动化巡检信息展示、应用软件发布管理。

(2)业务核心层:包含了日常巡检自动化、配置管理自动化、实时事件监控、资源管理自动化、预警响应自动化、发布部署自动化、检修管理自动化等功能。

(3)云平台层:在开源Open Stack的基础上开发,实现了集计算、网络、存储资源的集中管理和分配。

(4)统一权限认证管理系统:能够统一管理各操作系统平台的用户,最大程度地简化了系统规模,降低了权限管理难度。支持LDAP服务、终端设备、LDAP协议等,不仅可以统一权限管理,同时还能够根据不同的业务类型分类控制,更便于划分业务[2]。

2.2 平台的逻辑架构设计

根据数据中心系统的运维特点,自动化运维平台能够对一下数据进行统一监管与展现,而且还能准确的捕获数据,并发出告警。

(1)日常巡检管理:本部分需要由数据中心管理工作者对工作系统进行定期检查和记录要求将工作内容及数据以表单的形式记录下来,加以汇总分析。如果发现故障,只需要单击登录相应的IT服务管理系统,就能继续跟踪后续事件。

(2)运维监控管理:通过图形化的形式对核心业务系统、数据库的可用性进行实时监控。异地/本地灾备环境数据库还可以通过图形化的方式进行实时的同步展示,而且能够细化至具体的进程状态,更便于运维人员发现故障。

(3)设备资产管理:规范的集中化平台与变更流程可以对硬件物理设备、存储设备、虚拟化设备、网络设备、安全设备进行细化和归档,通过归类、划分业务系统,运维人员可以随时查询需要的相关信息。

(4)知识库管理:实现了对所有技术类文档的集中管理,为运维人员的查阅提供了方便。

(5)第三方平台接入:根据现有的ITSM、堡垒机服务、监控系统、流程管理系统等IT运维管理工具,可利用简单的账号信息来为自动化运营平台和第三方系统的登录提供服务。

(6)信息中心管理:主要用来动态、实时发布运维管理规范、运维体系条例等[3]。

3 数据中心自动化运维平台的实现

3.1 本地/异地数据库的同步监控

运维工作中,本地Pracle Dataguard与异地Shareplex监控十分重要,因为企业内部核心业务的数据安全正是依赖于本地/异地数据复制的实时性与准确性。启动自动化运维平台前,企业首先要安排专业的数据库管理员对源端、目标端的系统、数据库状态、数据的积压量、延迟时间进行全面检查。系统将会直接利用shell代码直接获取全部指标本地数据,随后将数据信息直接传递至平台数据库。在平台内部会统一展示数据,并且在数据申报展示过程中可实现及时告警,如若发生故障或延迟准确为管理工作者提供相关警告数据,提高管理工作者处理风险的时效性。

3.2 应用/数据库服务可用性的监控

企业信息化部门的运维工作中,应用服务是否可用性健康是一项重要任务,只有业务系统与企业的公用系统都处于稳定运作的状态,才能保障企业办公以及各类业务的正常开展。在自动化运维平台推广利用之前其主要问题是研发团队或者用户所发现的问题,在发生后运维部门才会了解,这样就导致运维部门无法第一时间段发现并解决故障。而通过应用服务与数据库服务,可以把信息批量的传送到平台前端,数据中心值班人员可以实时监控,有效解决了人工发现故障效率低、时效性差的弊端。

3.3 自动化备份检查

应用附件备份、文件备份、数据库备份是否可靠与企业信息安全、故障发生的可还原的节点密切相关,可见检查和验证备份有效性的重要程度。一般情况下,企业的信息化运维部门会委派专人检查并复核数据备份,但人工操作容易遗漏或者因失误造成数据丢失。利用Shell脚本则可以自动化检查、推送不同业务的备份数据,充分保障了系统备份的安全有效[4]。

4 结束语

综上所述,简单的运维工具拼凑而成的自动化运维平台绝不是合格、优秀的,自动化运维平台的高效运行,需要严谨的理论作为支撑。随着大数据时代的全面来临,以数据为代表的技术为各行各业的发展、运营提供了很多便利,加快自动化运维平台建设,减少人工运维的失误,降低运维管理成本,提高运维管理效率,才能真正实现自动化管理。

猜你喜欢

备份数据中心运维
高速公路智能运维平台
浅析数据中心空调节能发展趋势
如何只备份有用数据而不备份垃圾数据
创建vSphere 备份任务
智能+时代的新运维
——2019(第十届)IT 运维大会特别报道
Windows10应用信息备份与恢复
关于建立“格萨尔文献数据中心”的初步构想
2017第十届中国数据中心大会榜单
配电线路的运维管理探讨
旧瓶装新酒天宫二号从备份变实验室