1.简介
记录一次三台esxi5.5健康状况报警的处理方法,第一台(120.111)报电源故障,第二台(120.130)也是报电源故障,只不过多了一条System Board 1 PS Redundancy 0 – Redundancy lost,第三台(120.118)报硬盘故障,下面是三台报警处理过程。
2.相关
ESXI版本:5.5 3248547
第一台环境:双电源,1号位市电,2号位UPS
第二台环境:双电源,1号位市电,2号位UPS
第三台环境:四块600G的SRS盘组的RAID5
3.步骤
3.1.第一台
报警图:
报错
Power Supply 1 Status 0: Power Supply AC lost - Assert 电源1状态0:电源AC丢失-断言 Power Supply 1 Status 0: Config Error:Vendor Mismatch - Assert 电源1状态0:配置错误:供应商不匹配-断言
处理方法:
将esxi上面的虚机全部关机-然后进入维护模式(防止开机自动进入或是进行其它操作)-然后关机去机房将1号位的电源重新插拔一下在开机即可。
此时千万不要拔掉2号位的电源,拔掉2号位的电源服务器会立即断电,造成服务器及服务器上的虚机异常关机。当然你也可以不按以上的方法关机直接去机房从控制台关机,但个人不建议这样操作,具体不解释了。
3.2.第二台
报警图:
报错
Power Supply 2 Status 0: Power Supply AC lost - Assert 电源2状态0:电源AC丢失-断言 Power Supply 2 Status 0: Config Error:Vendor Mismatch - Assert 电源2状态0:配置错误:供应商不匹配-断言 System Board 1 PS Redundancy 0 - Redundancy lost 系统板1 PS冗余0-冗余丢失
处理方法:
解决方法和第一台类似,唯一区别就是在服务器关机之后,将电源线拔掉等待一会在将电源线接上开机即可。
此时千万不要拔掉1号位的电源,拔掉1号位的电源服务器会立即断电,造成服务器及服务器上的虚机异常关机。
3.3.第三台
报警图:
报错
System Board 1 Drive 0 0: In Critical Array - Assert 系统板1驱动器0 0:在关键阵列中-断言 System Board 1 Drive 0 1: In Critical Array - Assert 系统板1驱动器0 1:在关键阵列中-断言 System Board 1 Drive 0 3: In Critical Array - Assert 系统板1驱动器0 3:在关键阵列中-断言
处理方法:
更换2号位上的硬盘,此报错是因为2号位上的硬盘有问题,造成数据同步时无法同步过去。
4.卷组丢失恢复过程
关于第三台服务器的故障很奇葩,vsphere client中健康状况报0、1、3号位硬盘Assert,但实际服务器上2号位的硬盘状态灯一切正常,4块盘组的RAID5,可用空间在1.6T左右也正常(如下图),因开始不知道2号位的盘已经坏了,去尝试重新插拔0号位的硬盘,vsphere client中健康状况报警确实恢复了,然而造成raid卷组丢失,vsphere client上面的虚机变为(unknown)不可访问,重启之后就无法开机了。
4.1.0位盘移除
将0号位的硬盘移除,状态如下:
4.2.重启之后
4.3.进入到RAID管理
4.4.导入外部配置
请附加所有物理磁盘。 这是一个不可逆的过程!注意:离线虚拟磁盘无法导入!