天天看點

Linux系統當機情況分析與處理方案介紹

轉載自:http://www.linuxeden.com/html/softuse/20100416/102587.html        

我們在使用Linux系統的時候會發現系統沒有響應出現當機現象。這個時候要做些什麼呢?說到這有人就會問,Linux系統會當機麼?我可以很肯定地說,會!要讓Linux當機很容易,但難的是在當機以後如何安全的讓他擺脫當機狀态,本文講述如何從Linux的當機狀态中掙脫出來。

  Linux系統當機有很多種情況,最常見的是系統負載過高導緻的。如上次介紹的fork***就是這個原理,此外還可以運作記憶體耗用極大的程式(如虛拟機),也會迅速提升系統負載。由于系統負載過高導緻的卡死,一定是解決的越快越好!此時必須記住的是,不能再試圖依賴任何圖形界面的東西,如 Gnome 的系統螢幕(這是我從 Windows 遺留下來的愚昧習慣……),這隻會繼續加重這種卡死的局面。那怎麼辦?

  不要怕,Linux系統最初就是不需要圖形界面的,因為有一個很強大的文字界面。按 Ctrl-Alt-F1(F1-F6 一般來說都可以),然後等一會兒,就會切換到 tty,也就是所謂的文字界面。這個時候需要用使用者名密碼登入。注意,可能鍵盤輸入的速度比較慢,不過應該還是可以忍受的。下面在提示符後面輸入 top 回車,這時會看到一張動态的表,上面列出了耗用資源最多的程序。觀察它重新整理一兩次,按q退出,然後輸入 kill ,其中的 PID 你可以在 top 裡面看到。這個時候應該會快了不少,如果你發現沒有成功結束掉,就再輸入 kill -KILL ,這次基本上就沒問題了。

  除了上面這種情況外,一些底層軟體的 bug 也可能導緻一些奇怪的當機問題。我某位同學近日就因為莫名其妙的當機強制重新開機把 ext4 的分區給傷了。(最後是 sysreccd 修複了,貌似是分區表部分損壞)據其說,當機是鍵鼠均無反應。一般來說,系統負載高導緻的當機,在可怕鍵盤也會有反應,有人說如果當機到鍵盤無響應“負載 都無限大了”,亦有人說這可能是 X Server 與驅動配合有問題導緻的。不過我們考慮一下遇到這種情況怎麼辦?

  OK,這是今天才學到的方法,叫做 reisub,這個方法可以在各種情況下安全地重新開機計算機。大家在鍵盤上找,可以找到一個叫做“Sys Rq”的鍵,在台機的鍵盤上通常與 Prt Sc 共鍵,在筆記本可能在其他位置,如 Delete。以台機為例,要使用這種方法需要按住 Alt-Print(Sys Rq),然後依次按下 reisub 這幾個鍵,按完 b 系統就會重新開機。

  下面解釋一下這個方法:其實 Sys Rq 是一種叫做系統請求的東西,按住 Alt-Print 的時候就相當于按住了 Sys Rq 鍵,這個時候輸入的一切都會直接由Linux核心來處理,它可以進行許多低級操作。這個時候 reisub 中的每一個字母都是一個獨立操作,他們分别表示:

  R:unRaw 将鍵盤控制從 X Server 那裡搶回來

  E:tErminate 給所有程序發送 SIGTERM 信号,讓他們自己解決善後

  I:kIll 給所有程序發送 SIGKILL 信号,強制他們馬上關閉

  S:Sync 将所有資料同步至磁盤

  U:Unmount 将所有分區挂載為隻讀模式

  B:reBoot 重新開機

  這6個字母的順序是不可以記錯的。那怎麼記呢?這裡提供一個個人認為比較好的方法:單詞 busier(busy 的比較級,更忙)倒過來就是了。

  當機?不合适吧。真當機了除了hard reset還能幹什麼?叫失去響應或者無響應更合适吧?

  另外伺服器一般都是遠端操作的,sysrq怎麼用呢?

  X挂掉,通常psuedo console就能搞定。通常大家也會開ssh,絕大多數情況下都能連上去殺程序,做重新開機前的收尾比如sync來commit。

  關于sysrq,通常RHEL/OEL等EnterpriseLinux系統預設都是關閉的需要事先開啟才可以用。

  cat /proc/sys/kernel/sysrq,看了手頭的幾個桌面發行版本,隻有Ubuntu預設是開的,Arch是關閉的。

  對于桌面使用者而言,當桌面僵死時,用這個來搞一下,還是很友善的。

上一篇: LNMP應用

繼續閱讀