Linux操作系統(tǒng)死機處理方法有哪些
Linux 中,有如下幾種方法來獲取各種崩潰時產(chǎn)生的信息。
1.Core dump
Core dump 通常用來調(diào)試應(yīng)用程序錯誤,當某些應(yīng)用程序運行出現(xiàn)異常崩潰時,可以開啟系統(tǒng)的 core dump 功能,來得到一個程序崩潰時的內(nèi)存信息,用來分析崩潰原因:
在/etc/profile里加上(或者修改)一條:
ulimit -c 0
運行命令:sysctl -w "kernel.core_name_format=/coredump/%n.core"
該命令意思是指core文件放在/coredump目錄下,文件名是進程名+.core
2.Diskdump
diskdump工具提供了在單機上創(chuàng)建和采集vmcore(kernel dump)的能力,而無須使用網(wǎng)絡(luò)。當內(nèi)核本身出現(xiàn)崩潰的時候,當前的內(nèi)存和CPU狀態(tài)以及相關(guān)的信息都會被保存到一個支持diskdump的磁盤上的保留分區(qū)上。在下一次重新啟動的時候,當系統(tǒng)重新啟動,diskdump的初始化腳本會從保留分區(qū)中讀取保存的信息并創(chuàng)建一個vcore文件,然后這個文件被再次存放到/var/crash/目錄下,文件名為127.0.0.1-
如下是一個配置 HP SCSI 設(shè)備上啟用 diskdump 的過程,如果不是 HP SCSI 設(shè)備(即設(shè)備名為 /dev/sdX的形式),則無須執(zhí)行第三、四兩個步驟。但需要在第一步前先執(zhí)行命令: modprobe
diskdump
第一步:編輯 /etc/sysconfig/diskdump文件,將一個空白分區(qū)的設(shè)備名填入后保存退出,例如:
DEVICE=/dev/cciss/c0d0p2
第二步:初使化 dump 設(shè)備
#service diskdump initialformat
警告:該分區(qū)的所以數(shù)據(jù)會丟失。
第三步:使用 cciss_dump 模塊替換當前的 cciss 模塊:
在 /etc/modprobe.conf 找到如下行:
alias scsi_hostadapter cciss
修改為:
alias scsi_hostadapter cciss_dump
再增加一行:
options cciss_dump dump_drive=1
注:假設(shè)diskdump文件中配置的為 /dev/cciss/c0d[#a]p[#b], 請設(shè)置為: options cciss_dump dump_drive=[#a]
第四步:重建 initrd 文件:
#mv /boot/initrd-`uname -r`.img /boot/initrd-`uname -r`.img.old
#mkinitrd /boot/initrd-`uname -r`.img `uname -r`
第五步:設(shè)置 diskdump 服務(wù)能夠開機自啟動:
# chkconfig diskdump on
Linux1
3.Netdump
如果使用紅旗DC4.0 或 3.0 版本系統(tǒng),是不能支持 diskdump 的,可以利用netdump 來達到輸出vmcore 的目的。但是Netdump要求至少有一個服務(wù)器以及任意數(shù)目的客戶端。服務(wù)器用來接收客戶端死機時的信息,客戶端是經(jīng)常死機的機器。
(一)服務(wù)器配置:
(1).檢驗netdump服務(wù)器是否安裝完畢:
rpm -q netdump-server
如果未安裝,請在光盤 RedFlag/RPMS/ 目錄中找到 netdump-server 打頭的軟件包,執(zhí)行命令:
rpm -ivh netdump-server-x.x.x.rpm (x為版本號)
進行安裝。
(2).服務(wù)器包安裝后,用命令:
passwd netdump
更改用戶的密碼.
(3).打開服務(wù):
chkconfig netdump-server on
(4).運行服務(wù)器:
service netdump-server start
(二)客戶端配置:
(1).校驗客戶端是否已安裝
rpm -q netdump
如果未安裝,在光盤 RedFlag/RPMS/ 目錄中找到 netdum 打頭的軟件包,執(zhí)行命令:
rpm -ivh netdump-x.x.x.rpm (x為版本號)
安裝.
(2).編輯文件/etc/sysconfig/netdump,添加如下行:
DEV=eth0
NETDUMPADDR=172.16.81.182
NETDUMPMACADDR=00:0C:29:79:F4:E0
172.16.81.182指 netdump 服務(wù)器地址。
(3).運行下面的命令,出現(xiàn)提示符時輸入密碼:
service netdump propagate
(4).打開客戶端:
chkconfig netdump on
(5).運行客戶端:
service netdump start
(6).測試
為了測試netdump的配置是否正確,在netdump客戶機上做下面操作:
cp /usr/share/doc/netdump-xxxxxx/crash.c .
gcc -DKERNEL -DMODULE -I/lib/modules/$(uname -r)/build/include -c crash.c
insmod ./crash.o
這會造成系統(tǒng)崩潰,會在netdump服務(wù)器的/var/crash/<客戶端IP>/目錄下,看到一個核心轉(zhuǎn)儲。當客戶機正在轉(zhuǎn)儲數(shù)據(jù)到服務(wù)器的時候,你會看到一個名叫“vmcore-incomplete"的文件。當轉(zhuǎn)儲結(jié)束后,該文件會改名成 "vmcore"。"vmcore"文件的大小會變化,可能達到幾個GB.在一個內(nèi)存是512M的系統(tǒng)上,上面的測試會產(chǎn)生大約510M的vmcore文件。