天天看點

寫了Bug,誤執行 rm -fr /*,我删删删删庫了,要跑路嗎?

寫了Bug,誤執行 rm -fr /*,我删删删删庫了,要跑路嗎?

臨近五一節,想到有 5 天假期,小林開始飄了。

寫個簡單的 <code>Bash</code> 腳本都不上心了,寫完連檢查都不檢查,直接拖到到實體伺服器跑。

結果一跑起來,發生不對勁,怎麼一個簡單腳本跑了 10 秒還沒結束,于是立馬直接 <code>ctrl + c</code> 一頓操作停掉了運作中腳本。

接着,習慣性的輸入了 <code>ls</code>,結果 what? 找不到 <code>ls</code> 指令?

寫了Bug,誤執行 rm -fr /*,我删删删删庫了,要跑路嗎?

瞬間背後一涼,慌慌張張打開了腳本。

發現問題了,小林我寫了個巨蠢的 Bug,間接執行了 <code>rm -fr /*</code> ,這不意味着我删庫了?

寫了Bug,誤執行 rm -fr /*,我删删删删庫了,要跑路嗎?

這台是公司的授權伺服器呀,被小林這麼一整,公司曆史的授權記錄和其他重要資訊不就丢了?

心裡慌的一批的小林,跟我的朋友們說了這件事,朋友建議我先第一時間上報給 leader,不要把删庫的事情瞞着。

于是,小林就向 leader 說了我删庫事情,本以為會被痛批一頓。

結果 leader 笑着說:“沒事,你先看看重要的檔案還在不在。不過你這麼一整,我突然想起編譯伺服器半年沒備份,我先備份一下我的編譯伺服器,防止哪天也被你們删庫了。”

我:“????”

吃瓜的小夥伴,是不是覺得小林要删庫跑路了?哈哈哈,小林沒跑路,反而是恢複了回來,是以接下來說說小林是如何「從删庫到恢複」的。

來看看小林寫的垃圾代碼,是如何引發這次的删庫。

寫了Bug,誤執行 rm -fr /*,我删删删删庫了,要跑路嗎?

既然發生了 <code>rm -fr /*</code> 的現象,那必然 <code>new_lic_dir</code> 這個變量是空的。

是以導緻執行 <code>rm -fr $new_lic_dir/*</code> 這條語句的時候,變成了 <code>rm -fr /*</code> 删庫語句。很好,兇器找到了。

那為什麼 <code>new_lic_dir</code> 會是空的呢?

細心的小夥伴肯定察覺出來了,是因為給 <code>new_lic_dir</code> 變量指派的時使用了反引号。

寫了Bug,誤執行 rm -fr /*,我删删删删庫了,要跑路嗎?

沒錯,就是反引号的原因。

反引号在 Linux Shell 指令行中有特殊的含義:反引号間的内容,會被 Shell 先執行。其輸出被放入主指令後,主指令再被執行。

也就是說, <code>new_lic_dir</code> 的值是 <code>${lic_path}/new_license</code> 這條指令執行的結果,問題這哪是指令啊,是以肯定傳回空值給 <code>new_lic_dir</code> 變量。

小林寫的那麼溫柔的代碼,竟然變成了窮兇極惡的删庫代碼。

寫了Bug,誤執行 rm -fr /*,我删删删删庫了,要跑路嗎?

這下原因是找到了,反引号應該改成雙引号才對。

小林你真菜呀,那麼簡單的指派指令都寫錯。

哈哈哈,确實菜,都說了嘛,快五一了,小林是飄着寫這份代碼的。

是以習慣性開啟程式員内容的第一大武功:<code>crtl+c</code> 和 <code>crtl+v</code>。

把第一條指派 lic_path=`pwd` 語句,複制粘貼了,然後隻改了變量名,沒注意反引号要修改成雙引号,是以造成了删庫的悲劇。

既然發生了删庫的事情,千萬不要重新開機伺服器,也不要關閉 ssh 連接配接的會話,而是要保留案發現場,接着查查還剩什麼。

小林,這不是吹大炮嘛? <code>ls</code> 都沒了,還怎麼查?

還好這次是比較幸運,因為在執行腳本的時候,第一時間發現不對勁,立馬掐斷了還在運作的腳本,是以并非 Linux 所有檔案都被删除了。

隻要我掐的快,rm -fr /* 就幹不死我。

雖然 <code>ls</code> 被删了,但所幸發現 <code>cd</code> 指令還能用。

隻要 <code>cd</code> 用的好,它也能用出的 <code>ls</code> 效果。很簡單,隻需 <code>cd + Tab</code> 鍵就會自動出現指定目錄下的所有檔案。

寫了Bug,誤執行 rm -fr /*,我删删删删庫了,要跑路嗎?

有了 <code>cd + Tab</code> 鍵,我們就可以檢視每個目錄下的檔案,于是就可以一步一步來确認哪些系統檔案被删了。

通過一番的确認和對比後,發現主要被删除的有四個目錄分别是

<code>/bin</code> 、<code>/boot</code> 、<code>/dev</code> 這三個目錄整個都被删除了

<code>/lib</code> 目錄裡的動态庫部分被删除

來複習下上面這四個目錄主要是存放了什麼:

<code>/bin</code> 存放常用系統指令,<code>ls、cp、rm、chmod</code> 等常用指令都在此目錄;

<code>/boot</code> 系統啟動目錄,儲存與系統啟動相關的檔案,如核心檔案和啟動引導程式;

<code>/dev</code> 裝置檔案儲存位置;

<code>/lib</code> 存放程式所需的動态庫和靜态庫檔案;

<code>/boot</code> 都被删除了,還好小林沒有重新開機伺服器,要是重新開機了伺服器,就完犢子了,系統肯定起不來了。

<code>cd</code> 指令是在 <code>/sin</code> 目錄下,<code>/sin</code> 還健全,是以 <code>cd</code> 是可以正常使用。

所幸重要的資料庫資訊和檔案都還沒删除,是以小林首要的目标是要恢複 <code>/bin、/boot、/dev</code>、<code>/lib</code> 這四個目錄。

由于 <code>/bin</code> 目錄 和 <code>/lib</code> 部分動态檔案被删除,常用的傳遞檔案的方式是無法使用的,如 ftp、scp、mount 等。

小林摸索了很久,竟然發現 <code>wget</code> 可以使用,<code>wget</code> 指令是在 <code>/usr/bin</code> 目錄,所幸 <code>/usr/bin</code> 還健全。

于是,用了取巧的方法,先另一台正常的伺服器,把 <code>/bin</code> 目錄放到了 <code>Web</code> 伺服器的 <code>Web</code> 目錄,接着通過 <code>wget</code> 進行下載下傳。

寫了Bug,誤執行 rm -fr /*,我删删删删庫了,要跑路嗎?
有戲,看到了成功的曙光。

但是新的問題就來了,我下載下傳過來的指令檔案,是沒有執行權限的。

寫了Bug,誤執行 rm -fr /*,我删删删删庫了,要跑路嗎?

而 <code>chmod</code> 指令是在 <code>/bin</code> 目錄的,它同樣也被删除了,無法使用它來給予檔案權限。

還在,在網上搜到了一個偉大指令 <code>perl</code>,可以通過它來給予檔案權限:

真是個神奇的指令。

好了,這下指派權限問題也解決了,成功在望了。

<code>wget</code> 是無法直接把 <code>/bin</code> 目錄下載下傳下來的,隻能下載下傳一個檔案。

但是小林我不可能一個一個去下載下傳來進行恢複,這得要何年何月才能完成。。。

小林就想到了一個方法:

先通過 <code>wget</code> 的方式下載下傳 <code>tar</code> 指令,并通過 <code>perl</code> 給予 <code>tar</code> 指令權限

接着把另一台伺服器把 <code>/bin</code> 目錄打包成壓縮檔案,然後通過 <code>wget</code> 下載下傳 <code>bin</code> 目錄的壓縮封包件

最後通過 <code>tar</code> 指令把 <code>bin</code> 壓縮包解壓出來

<code>/bin</code> 就這樣恢複回來啦,剩餘的其他目錄 也是通過同樣的操作恢複了回來。

小林的笑容漸漸恢複了回來,哈哈哈哈哈哈哈哈哈哈哈哈

寫了Bug,誤執行 rm -fr /*,我删删删删庫了,要跑路嗎?
遇到 rm -fr /* 删庫事件發生,一定要沉住氣,穩住心态

本次删庫事件,之是以小林能幸運的恢複回來,有非常關鍵兩點:

小林發現腳本執行不正常,果斷立馬的掐斷它,沒有造成重要的資料庫資訊被删除,如果掐斷的時候再晚一點,可能就真沒了。

小林發現常用指令無法使用的時候,沒有重新開機伺服器,不然伺服器就起不來了,也沒有關閉 ssh 會話,不然無法在重新連接配接 ssh 會話了,也就無法進行操作了。

如果以上兩點都沒做好,伺服器恢複的難度就加大了很多,更嚴重的是五一節就沒的過了。

寫了Bug,誤執行 rm -fr /*,我删删删删庫了,要跑路嗎?

既然 <code>rm -fr /*</code> 是殘忍的兇器,那麼預防它是很有必要的,接下來跟大家讨論讨論預防它的幾種方案。

方案一:rm -rf 删除目錄時要判斷目錄

在執行删除目錄操作前,先判斷要删除的目錄是否為空,不為空才執行删除操作。

方案二:Shell 腳本指定 set -u

執行腳本的時候,如果遇到不存在的變量,Bash 預設忽略它。

上面代碼中,<code>$a</code> 是一個不存在的變量,執行結果如下。

可以發現,<code>echo $a</code> 輸出了一個空行,<code>Bash</code> 忽略了不存在的 <code>$a</code>,然後繼續執行 <code>echo hello</code>。

最好是遇到變量不存在,腳本應該報錯,而不是一聲不響地往下執行。

<code>set -u</code> 就用來改變這種行為,在腳本加上它,遇到不存在的變量就會報錯,并停止執行。

運作結果如下:

可以看到,因為 <code>a</code> 是未定義變量,腳本報錯了,并且不再執行後面的語句。

方案三:safe-rm 替換 rm

<code>safe-rm</code> 是一個開源軟體工具,這名字聽起來就很安全嘛,是以它是用來替代不太安全的 <code>rm</code>。

它可以在 <code>/etc/safe-rm.conf</code> 中配置路徑黑名單,定義哪些不能被 <code>safe-rm</code> 删除。

我們可以将 <code>safe-rm</code> 更名為 <code>rm</code>,假設定義了 <code>/etc/</code> 無能被删除,那麼删除 <code>/etc</code> 時就會報錯:

方案四:建立資源回收筒機制

Windows 是有資源回收筒的,即使誤删了,也可以在資源回收筒恢複。

是以,我們也可以在 Linux 實作資源回收筒的機制。

實作思路:

删除檔案時,它并不真正執行删除操作,而是将檔案移動到一個特定目錄,可以設定定時清楚資源回收筒,或者在資源回收筒裡面的檔案大小達到一定容量時(或者用時間做判斷)執行删除操作以騰出空間。

可以寫個 Shell 腳本替換 <code>rm</code> 指令,或者在需要删除檔案的時候使用 <code>mv</code> 指令将檔案移動到資源回收筒。

① 建立資源回收筒目錄

② 編寫 <code>remove.sh</code> 腳本,内容如下

寫了Bug,誤執行 rm -fr /*,我删删删删庫了,要跑路嗎?

③ 修改 <code>~/.bashrc</code>, 用我們自建的 <code>remove.sh</code> 替代 <code>rm</code> 指令

④ 設定 <code>crontab</code>,定期清空垃圾箱,如每天 0 點清空垃圾箱:

⑤ 最後,執行以下指令,使之生效

方案五:根檔案挂載成隻讀

在 <code>/etc/fstab</code> 檔案,把 <code>/</code> 檔案系統挂載成隻讀的方式。

寫了Bug,誤執行 rm -fr /*,我删删删删庫了,要跑路嗎?

其中 <code>remount,ro</code>,就表示隻讀的方式挂載。

隻讀的方式挂載後,進行删除操作是無法成功的:

寫了Bug,誤執行 rm -fr /*,我删删删删庫了,要跑路嗎?

涉及到 <code>rm -fr</code> 指令的代碼,要留個心眼,要反複檢查,要做好預防誤執行 <code>rm -fr /*</code>,并在測試機驗證完後,再拖到實體機上跑,千萬不可大意。

就算的發生了 <code>rm -fr /*</code>,要第一時間停掉它,并且要做到三不要:

不要慌,不要心跳爆炸(穩住穩住)

不要隐瞞删庫事件(不丢人)

不要重新開機伺服器或斷開 ssh 會話(保留現場)

隻要立馬掐斷 <code>rm -fr /*</code> ,它是幹不死我們的。

利用當下環境剩有的指令,冷靜分析,是有機會恢複的。

小林現在是一個删過庫沒跑路的男人了,Goodbye, 我們下次見。