恢复vSAN健康状况
2018-11-09
故障现象
一个2节点的vSAN延伸群集,节点主机配置 了 1个CPU、16GB内 存、1块万兆网卡、2个磁盘组组成2节点直连的vSAN延伸群集。在使用一段时间之后,其中一个节点主机出现问题,管理员进入控制台将这个主机进行了“系统重置”,重置之后,再次进入控制台,将IP地址、密码设置为与原来相同。登录vSphere Web Client重新连接、配置主机之后,在“配置→磁盘管理”中看到,这台主机磁盘组的“vSAN健康状况”为-(如图 1),同时,在“网络分区组”列表中,这台主机没有分区信息。
图1 vSAN健康状态不正常
图2 vSAN健康状态正常
正常情况下的“vSAN健康状况”应该显示为“正常”(如图2)。
此时当前的vSAN数据存储容量降为原来的一半。
解决故障一
1.解决思路
对于出现图1所示状态的故障,解决的思路如下。
(1)如果当前vSAN群集中有正在运行的虚拟机,重要的虚拟机可以备份或迁移到其他群集中继续运行。不太重要的虚拟机,可以暂时先关闭。
(2)禁用 HA。
(3)将出故障的主机进入维护模式(当前主机是172.18.96.36),并 从 vSAN群集中移除。
(4)将172.18.96.36重新加入vSAN群集,并退出维护模式。
(5)重新启用HA。
2.解决步骤
下面介绍详细步骤。
(1)在导航器中选中vSAN群集(当前群集名称为T630-vSAN),在右侧单击“配置→故障域和延伸群集”,在“故障域/主机”中可以看到,当前缺少“首选”主机(或缺少辅助主机)。
(2)在“配 置 → 服 务→vSphere可用性”中单击“编辑”按钮。
(3)在打开的“编辑群集设置”对话框的“vSphere可用性”中,取消“打开vSphere HA”的选择然后单击“确定”按钮。
(4)在vSphere导航器中,将故障主机进入维护模式,然后将其移除。移除完成之后如图3所示。
(5)将故障主机再次加入群集,并将故障主机退出维护模式。
(6)在“配置→vSAN→故障域和延伸群集”中单击+号按钮(如图4)。
图3 移除故障主机之后
图4 添加故障域
图5 故障域信息正常
(7)在“新建故障域”对话框中的“名称”文本框中为新添加的故障域设置缺失的故障域名称。根据图4所示,当前缺失“首选”故障域,故设置名称为首选,选中再次添加的主机172.18.96.36,单击“确定”按钮。
(8)添加故障域之后,如图5所示。
(9) 为 172.18.96.36的主机启用SSH服务,使 用xshell登 录 到172.18.96.36,执行如下命令,为在vmk0添加vSAN见证流量。
esxcli vsan network ip add -i vmk0 -T=witness
(10)在“配置→vSAN→磁盘管理”中,可以看到172.18.96.36的主机磁盘组正常。
(11)在“数据存储→数据存储”中可以看到容量恢复正常(当前为3.68TB)。
(12)在“配置→vSphere可用性”中,启用vSphere HA。
故障解决二
在重新添加节点主机之后见证主机可能出错,这表示为在“配置→磁盘管理”中的“网络分区组”中,见证主机没有分组信息,vSAN健康状况显示为-。
对于这种问题,只要更改见证主机,并重新选择见证主机即可解决。
(1)在“配置→vSAN→故障域和延伸群集”中单击“更改见证主机”。
(2)在“更改见证主机”对话框的“选择见证主机”选项中,仍然选择原来的见证主机172.18.96.39即可。
(3)重新选择见证主机之后,整个vSAN群集恢复正常,在“网络分区组”中可以看到每个节点主机及见证主机都在组1,vSAN健康状况为正常。