天天看點

淺析Linux初始化init系統,第3部分: Systemd

Systemd 是 Linux 系統中最新的初始化系統(init),它主要的設計目标是克服 sysvinit 固有的缺點,提高系統的啟動速度。systemd 和 ubuntu 的 upstart 是競争對手,預計會取代 UpStart,實際上在作者寫作本文時,已經有消息稱 Ubuntu 也将采用 systemd 作為其标準的系統初始化系統。

Systemd 的很多概念來源于蘋果 Mac OS 作業系統上的 launchd,不過 launchd 專用于蘋果系統,是以長期未能獲得應有的廣泛關注。Systemd 借鑒了很多 launchd 的思想,它的重要特性如下:

Systemd 是一個"新來的",Linux 上的很多應用程式并沒有來得及為它做相應的改變。和 UpStart 一樣,systemd 引入了新的配置方式,對應用程式的開發也有一些新的要求。如果 systemd 想替代目前正在運作的初始化系統,就必須和現有程式相容。任何一個 Linux 發行版都很難為了采用 systemd 而在短時間内将所有的服務代碼都修改一遍。

Systemd 提供了和 Sysvinit 以及 LSB initscripts 相容的特性。系統中已經存在的服務和程序無需修改。這降低了系統向 systemd 遷移的成本,使得 systemd 替換現有初始化系統成為可能。

Systemd 提供了比 UpStart 更激進的并行啟動能力,采用了 socket / D-Bus activation 等技術啟動服務。一個顯而易見的結果就是:更快的啟動速度。

為了減少系統啟動時間,systemd 的目标是:

盡可能啟動更少的程序

盡可能将更多程序并行啟動

同樣地,UpStart 也試圖實作這兩個目标。UpStart 采用事件驅動機制,服務可以暫不啟動,當需要的時候才通過事件觸發其啟動,這符合第一個設計目标;此外,不相幹的服務可以并行啟動,這也實作了第二個目标。

下面的圖形示範了 UpStart 相對于 SysVInit 在并發啟動這個方面的改進:

假設有 7 個不同的啟動項目, 比如 JobA、Job B 等等。在 SysVInit 中,每一個啟動項目都由一個獨立的腳本負責,它們由 sysVinit 順序地,串行地調用。是以總的啟動時間為 T1+T2+T3+T4+T5+T6+T7。其中一些任務有依賴關系,比如 A,B,C,D。

而 Job E 和 F 卻和 A,B,C,D 無關。這種情況下,UpStart 能夠并發地運作任務{E,F,(A,B,C,D)},使得總的啟動時間減少為 T1+T2+T3。

這無疑增加了系統啟動的并行性,進而提高了系統啟動速度。但是在 UpStart 中,有依賴關系的服務還是必須先後啟動。比如任務 A,B,(C,D)因為存在依賴關系,是以在這個局部,還是串行執行。

讓我們例舉一些例子, Avahi 服務需要 D-Bus 提供的功能,是以 Avahi 的啟動依賴于 D-Bus,UpStart 中,Avahi 必須等到 D-Bus 啟動就緒之後才開始啟動。類似的,livirtd 和 X11 都需要 HAL 服務先啟動,而所有這些服務都需要 syslog 服務記錄日志,是以它們都必須等待 syslog 服務先啟動起來。然而 httpd 和他們都沒有關系,是以 httpd 可以和 Avahi 等服務并發啟動。

Systemd 能夠更進一步提高并發性,即便對于那些 UpStart 認為存在互相依賴而必須串行的服務,比如 Avahi 和 D-Bus 也可以并發啟動。進而實作如下圖所示的并發啟動過程:

所有的任務都同時并發執行,總的啟動時間被進一步降低為 T1。

可見 systemd 比 UpStart 更進一步提高了并行啟動能力,極大地加速了系統啟動時間。

當 sysvinit 系統初始化的時候,它會将所有可能用到的背景服務程序全部啟動運作。并且系統必須等待所有的服務都啟動就緒之後,才允許使用者登入。這種做法有兩個缺點:首先是啟動時間過長;其次是系統資源浪費。

某些服務很可能在很長一段時間内,甚至整個伺服器運作期間都沒有被使用過。比如 CUPS,列印服務在多數伺服器上很少被真正使用到。您可能沒有想到,在很多伺服器上 SSHD 也是很少被真正通路到的。花費在啟動這些服務上的時間是不必要的;同樣,花費在這些服務上的系統資源也是一種浪費。

Systemd 可以提供按需啟動的能力,隻有在某個服務被真正請求的時候才啟動它。當該服務結束,systemd 可以關閉它,等待下次需要時再次啟動它。

init 系統的一個重要職責就是負責跟蹤和管理服務程序的生命周期。它不僅可以啟動一個服務,也必須也能夠停止服務。這看上去沒有什麼特别的,然而在真正用代碼實作的時候,您或許會發現停止服務比一開始想的要困難。

服務程序一般都會作為精靈程序(daemon)在背景運作,為此服務程式有時候會派生(fork)兩次。在 UpStart 中,需要在配置檔案中正确地配置 expect 小節。這樣 UpStart 通過對 fork 系統調用進行計數,進而獲知真正的精靈程序的 PID 号。比如圖 3 所示的例子:

如果 UpStart 找錯了,将 p1`作為服務程序的 Pid,那麼停止服務的時候,UpStart 會試圖殺死 p1`程序,而真正的 p1``程序則繼續執行。換句話說該服務就失去控制了。

還有更加特殊的情況。比如,一個 CGI 程式會派生兩次,進而脫離了和 Apache 的父子關系。當 Apache 程序被停止後,該 CGI 程式還在繼續運作。而我們希望服務停止後,所有由它所啟動的相關程序也被停止。

為了處理這類問題,UpStart 通過 strace 來跟蹤 fork、exit 等系統調用,但是這種方法很笨拙,且缺乏可擴充性。systemd 則利用了 Linux 核心的特性即 CGroup 來完成跟蹤的任務。當停止服務時,通過查詢 CGroup,systemd 可以確定找到所有的相關程序,進而幹淨地停止服務。

CGroup 已經出現了很久,它主要用來實作系統資源配額管理。CGroup 提供了類似檔案系統的接口,使用友善。當程序建立子程序時,子程序會繼承父程序的 CGroup。是以無論服務如何啟動新的子程序,所有的這些相關程序都會屬于同一個 CGroup,systemd 隻需要簡單地周遊指定的 CGroup 即可正确地找到所有的相關程序,将它們一一停止即可。

傳統的 Linux 系統中,使用者可以用/etc/fstab 檔案來維護固定的檔案系統挂載點。這些挂載點在系統啟動過程中被自動挂載,一旦啟動過程結束,這些挂載點就會确儲存在。這些挂載點都是對系統運作至關重要的檔案系統,比如 HOME 目錄。和 sysvinit 一樣,Systemd 管理這些挂載點,以便能夠在系統啟動時自動挂載它們。Systemd 還相容/etc/fstab 檔案,您可以繼續使用該檔案管理挂載點。

有時候使用者還需要動态挂載點,比如打算通路 DVD 内容時,才臨時執行挂載以便通路其中的内容,而不通路CD光牒時該挂載點被取消(umount),以便節約資源。傳統地,人們依賴 autofs 服務來實作這種功能。

Systemd 内建了自動挂載服務,無需另外安裝 autofs 服務,可以直接使用 systemd 提供的自動挂載管理能力來實作 autofs 的功能。

系統啟動過程是由很多的獨立工作共同組成的,這些工作之間可能存在依賴關系,比如挂載一個 NFS 檔案系統必須依賴網絡能夠正常工作。Systemd 雖然能夠最大限度地并發執行很多有依賴關系的工作,但是類似"挂載 NFS"和"啟動網絡"這樣的工作還是存在天生的先後依賴關系,無法并發執行。對于這些任務,systemd 維護一個"事務一緻性"的概念,保證所有相關的服務都可以正常啟動而不會出現互相依賴,以至于死鎖的情況。

systemd 支援按需啟動,是以系統的運作狀态是動态變化的,人們無法準确地知道系統目前運作了哪些服務。Systemd 快照提供了一種将目前系統運作狀态儲存并恢複的能力。

比如系統目前正運作服務 A 和 B,可以用 systemd 指令行對目前系統運作狀況建立快照。然後将程序 A 停止,或者做其他的任意的對系統的改變,比如啟動新的程序 C。在這些改變之後,運作 systemd 的快照恢複指令,就可立即将系統恢複到快照時刻的狀态,即隻有服務 A,B 在運作。一個可能的應用場景是調試:比如伺服器出現一些異常,為了調試使用者将目前狀态儲存為快照,然後可以進行任意的操作,比如停止服務等等。等調試結束,恢複快照即可。

這個快照功能目前在 systemd 中并不完善,似乎開發人員也沒有特别關注它,是以有報告指出它還存在一些使用上的問題,使用時尚需慎重。

systemd 自帶日志服務 journald,該日志服務的設計初衷是克服現有的 syslog 服務的缺點。比如:

syslog 不安全,消息的内容無法驗證。每一個本地程序都可以聲稱自己是 Apache PID 4711,而 syslog 也就相信并儲存到磁盤上。

資料沒有嚴格的格式,非常随意。自動化的日志分析器需要分析人類語言字元串來識别消息。一方面此類分析困難低效;此外日志格式的變化會導緻分析代碼需要更新甚至重寫。

Systemd Journal 用二進制格式儲存所有日志資訊,使用者使用 journalctl 指令來檢視日志資訊。無需自己編寫複雜脆弱的字元串分析處理程式。

Systemd Journal 的優點如下:

簡單性:代碼少,依賴少,抽象開銷最小。

零維護:日志是除錯和監控系統的核心功能,是以它自己不能再産生問題。舉例說,自動管理磁盤空間,避免由于日志的不斷産生而将磁盤空間耗盡。

移植性:日志 檔案應該在所有類型的 Linux 系統上可用,無論它使用的何種 CPU 或者位元組序。

性能:添加和浏覽 日志 非常快。

最小資源占用:日志 資料檔案需要較小。

統一化:各種不同的日志存儲技術應該統一起來,将所有的可記錄事件儲存在同一個資料存儲中。是以日志内容的全局上下文都會被儲存并且可供日後查詢。例如一條固件記錄後通常會跟随一條核心記錄,最終還會有一條使用者态記錄。重要的是當儲存到硬碟上時這三者之間的關系不會丢失。Syslog 将不同的資訊儲存到不同的檔案中,分析的時候很難确定哪些條目是相關的。

擴充性:日志的适用範圍很廣,從嵌入式裝置到超級計算機叢集都可以滿足需求。

安全性:日志 檔案是可以驗證的,讓無法檢測的修改不再可能。

轉載于:http://www.ibm.com/developerworks/cn/linux/1407_liuming_init3/index.html

繼續閱讀