重启排查

查看启动日志

dmesg |grep -Ei 'error|Fail'

使用工具检查一下内存是否有报错:

dnf install -y libsysfs edac-utils

edac-util -v
dmidecode -t memory

其中 mc0 表示内存控制器0, CPU_Src_ID#0表示源 CPU0 , Channel#0 表示通道 0,DIMM#0 标示内存槽0,Corrected Errors 代表已经纠错的次数,根据前面列出的 CPU 通道和内存槽对应关系即可给 edac-utils 返回的信息进行编号

使用 crash 查看 Linux 系统异常重启原因

查看 kdump 是否开启

systemctl status kdump.service

查看带外上的告警

ipmitool sel list last 10

ipmitool sdr elist
ipmitool sdr type list
ipmitool sdr type "Power Unit" 

ipmitool lan set 1 snmp public
ipmitool lan print 1
ipmitool lan alert print 1

# 查看上次重启的原因
ipmitool chassis restart_cause
# 查询上电时间
ipmitool chassis poh