2020年10月9日,通过机房管理员巡检发现发现华为云平台系统计算节点服务器有硬件告警,随后立刻联系了机房硬件维保相关人员到现场处理故障。
硬件维保工程师到达现场后,发现日志显示该服务器内存条出现告警,需要关机处理。由于该服务器为华为云计算节点服务器,服务器上承载了一些其他业务系统的虚拟机,直接关机会导致业务中断,所以维保工程师必须先将所有业务迁移至其他服务器,来确保关机后业务不受影响。
在华为云工程师的配合下,顺利完成迁移后,硬件维保工程师对该服务器进行了关机下电操作,经过测试发现该内存条发生故障是因为内存接触不良,金手指上有氧化皮,擦拭金手指后重新将内存条安装到服务器,上电开机后,告警消除,业务恢复正常。
本次告警,于2020年10月9日上午发现,2020年10月10日下午处理完毕,现已将本次故障处理增加到日常维护巡检的手册中,作为知识储备。
通过本次操作,提高了维保人员对机房处理告警的效率、对硬件维护的水平,加强了自身操作水准,在未来工作里,蓝牙数码工作人员还将不断进步,全面提升,更好的为客户提供优质高效的服务。