APP下载

计算机机房硬件设备管理与维护探究

2021-01-13徐燃柏

消费电子 2021年12期
关键词:机房管理计算机硬件故障分析

徐燃柏

【关键词】机房管理;计算机硬件;故障分析;维护要求

在针对计算机机房中的硬件设备开展维护与管理工作时,工作人员需要明确计算机机房的一般结构形式,并依据此结构形式,选择具体的问题排查办法。一般情况下,计算机机房的整体结构形式并不会十分复杂,这与计算机机房自身的散热需求相关。其中,机柜的布置应整齐有序,与机柜相连接的各类辅助设备应运转正常,且运行稳定,需要满足不同区域的计算机硬件设备控制需求。从硬件设备组成内容的角度分析,其中,与网络通信相关的设备数量往往较多,包括路由器设备以及数据交换机设备等,此类设备对计算机服务器设备的运行效率有关键影响。除此之外,在开展此类计算机硬件管理与维护工作之前,工作人员应明确此类硬件设备常见的问题,并将此类问题固定到单一类比的硬件设备上,这不仅有利于定位问题的源头,更有利于提升计算机硬件问题的处理效率。

(一)电源系统硬件故障分析

电源系统硬件故障问题是常见的硬件设备问题,此类问题的主要原因与电源本身的供电稳定性和供电能力相关[1]。但是,在出现了电源系统硬件故障问题时,此类问题的表现形式往往較为复杂。计算机机房中的电源种类众多,体积相对较大的电源控制硬件单元一般会与机柜或者空调系统相连,并且此类硬件单元的整体结构形式往往较为复杂。在出现问题时,这种电源作用效果会出现在下游设备中,进而对计算机硬件设备的运行效能产生影响。例如,在总线输入电源出现问题时,下游的计算机散热机组以及网络交互机组可能会出现运行稳定性问题或者直接停止运行。此时,工作人员需要从计算机散热机组以及网络交互机组端开始排查,并且往往不能马上断定是否为电源的问题。另外,硬件设备自身的电路电压也会影响硬件设备的运行稳定性,而这种电路层面的问题极其麻烦,会对工作人员排查硬件问题产生干扰。

(二)空调系统硬件故障分析

如果计算机机房的环境温度超出了35℃,则此时的环境温度已经不适合机房中硬件设备的运行要求了,需要马上进行降温处理,否则会诱发计算机设备运行安全的问题,导致实际的运行效能下降[2]。在较高的温度状态下,计算机硬件设备的运转滞后性将会更加明显,一些与网络数据交换、数据存储相关的硬件设备甚至会直接报错。空调系统故障时,工作人员需要对空调系统的自适应调节控制单元进行检修,明确此类空调系统存在的控制问题。现阶段,计算机机房的空调系统具备了智能化调节的属性,可以根据环境温度自行进行空气温度调节,从而促使计算机机房的温度可以维持在固定的温度区间。但是,智能化控制系统如果出现了问题,其发送的空气调节指令就会出错。此时,如果温度传感器检测到的温度与实际的指令控制温度之间存在冲突,则相应的温度调节行为就会出现冲突,从而无法表现正确的温度调节行为,最为常见的温度调节行为即为温度失衡调节行为,其会直接影响机房的控制温度,进而影响计算机机房中各类硬件的运行效能。

(一)应具备错时维护特点,不能与固定需求之间出现维护冲突

错时维护要求是计算机机房硬件设备管理及维护的基本要求,维护工作与故障处理工作可以同时进行,但是维护工作需要为故障处理工作提供处理参考数据,此类数据也是计算机硬件设备的维护经验数据。一般情况下,计算机机房中的机柜数量较多,不同机柜复杂的运行功能不同,对应的硬件设备运行需求也存在差异[3]。在出现硬件设备问题时,会体现在具体的软件运行层面,尤其是网络信息交互层面。此时,工作人员需要及时定位此类问题硬件所在的机柜,之后需要根据硬件的运行要求,启动备用硬件设备。但是这个过程的持续时间可能会比较长。为此,工作人员应选择错时维护的办法,在机柜运行需求不高时,依次维护运行设备,检修设备的实际运行状态,这样,既可以避免对已经参与运行的硬件设备产生影响,也可以避免与固定需求之间出现维护冲突,实际的硬件维护管理工作质量也会更好。

(二)应具备良好的维护成本管控效能,降低硬件资源浪费

维护成本管理是计算机机房硬件设备管理与维护中的关键内容,现阶段,智能化的计算机硬件维护管理方式比较常见,但是其内部运行的各类指令依旧需要工作人员进行控制,并且需要根据机房的实际运行状态进行变化和调整。在这个过程中,设备的维护和检修工作往往相对复杂,与电力系统维护、空调系统维护、网络组件维护以及线路管网维护相关的工作内容较多,需要工作人员按照标准化的检修流程进行作业。如果计算机机房出现了明显的硬件设备问题,此时,与此硬件设备相关的维护与检修工作则需要多名检修人员相互配合完成,这样才能获得较好的硬件设备维护效果。但是,这种时间成本会直接转化为经济成本,而且往往消耗的维护资金比较多。这就要求工作人员在参与此类硬件设备维护与管理工作时,需要注意成本的管理和控制。同时,更需要注重减少硬件资源的浪费,这样才能有效控制计算机机房硬件设备管理与维护成本。

(一)重视指示灯、仪器仪表维护检修数据,强化数字化维修基础

指示灯以及指示等相关的仪器仪表数据是计算机机房硬件维护的数据基础,此类数据会直接显示在相应的故障报错组件中,工作人员根据相应的指示灯形态即可确定具体的硬件故障和问题。在这个过程中,工作人员需要明确不同指示灯的具体指代情况。例如,在硬件网关的运行过程中,其运行状态往往包含三种颜色的指示灯,即黄色、绿色和红色。其中,黄色和绿色代表硬件网关运行正常,但是如果黄色等闪烁,则说明可能存在网关延迟性问题,此时,工作人员需要对具体的延时进行测试。如果滞后的时长并未超出硬件网关的相应时效,则不需要进行维修,在后续的运行过程中此类设备可能会自动调节指令的引导下恢复正常[4]。但是,如果硬件网关的红灯亮起,则说明网关并未通过,实际的数据吞吐量已经降到了最低,无法满足计算机硬件系统的运行要求。则此时,工作人员应对相应的硬件设备进行针对性地维修和处理。需要注意的是,现阶段,数字化维修的故障显示效果并不十分完善,与此相关的数据可能显示不正常,但是实际的硬件运行过程却没有显性问题。这一方面与数字化控制系统的运行敏感度相关,另一方面也与硬件设备自身的质量相关。

(二)细化硬件设备维护调试流程,归纳总结常见硬件问题

硬件设备的维护调试流程具有规范化的特点,并且其细节性突出,需要工作人员在明确具体的排查流程基础上,强化设备维护与调试工作的规范性,同时,应在实践工作中积累技术应用经验,变化故障排查办法,从而提升故障设备管理与维护的有效性。首先,在对计算机机房硬件设备的组建形式有了充分的了解之后,工作人员需要明确此类设备的运行过程中可能会出现的问题。例如,对于空调设备,其常见的问题即为温度感应器的自动控制问题。针对此种问题,工作人员需要明确引发此类问题的常见因素,这样,在出现类似问题时,即可以直接进行问题的排查和故障的检修;其次,工作人员需要明确计算机硬件设备故障排查的系统性特点,这种系统性特点与硬件设备自身的运行需求相关,但更多的在于硬件设备本身运行的功能性。換言之,硬件设备的功能实现形式并非单一设备功能实现形式,而是需要多种设备相互配合。如果出现了设备运行问题,工作人员也需要从结构整体的角度排查此类问题,这样才能提升设备维护及管理调试工作质量。

(三)准备硬件故障响应预案,合理安排设备管理与维护周期

针对易损设备组件制定故障相应预案尤为关键。现阶段,这种故障相应预案会在实际的设备运行过程中表现出不同的设备应用形式,但基本上均为增加备用设备的数量。在电力系统出现问题时,为了确保电能供应的稳定性,工作人员可为关键机柜设备的总线开关提供应应急相应备用方案。在出现了类似问题时,系统会直接启用备用电力装置,停止故障装置的运行。这样不仅可以提升电力系统运行安全性,也可降低故障设备对计算机机房硬件设备运行成本的影响。需要注意的是,并非所有的硬件设备均需要配置应急预案,此类设备为维护周期比较长,一般情况下,并不会出现明显的故障问题。例如,与线路运行相关的网线设备或者交换设备等,此类设备的运行稳定性较好,并不会在运行过程中出现明显的故障问题。

总之,计算机机房硬件设备管理与维护的具体形式和办法需要符合机房自身的运行管理需求,其中,电力系统与空调系统为设备维护与管理中的关键系统,也是影响硬件设备维护效能的关键内容。此间,工作人员需要合理选择备用系统资源,积极调整设备管理与维护周期,从而降低设备维护与管理成本,提高设备管理与维护工作的整体质量。

猜你喜欢

机房管理计算机硬件故障分析
基于Unity的计算机硬件组装仿真教学系统设计
浅析基于医院特点的计算机硬件维护研究
计算机硬件设备驱动程序分析
中职计算机硬件课程教学策略探讨
还原卡扩展功能在提高机房管理效率上的应用
机房管理与维护浅谈
多媒体机房管理及维护
变频器控制回路抗干扰措施及调试故障处理
关于火电厂汽轮机故障分析方法与检修的探讨
发射台中央控制系统典型故障分析及维护