天天看點

使用 /proc 檔案系統來控制系統

作者:Graham White(gwhite at uk.ibm.com)

IT 專家,Hursley,IBM

2003 年 8 月

/proc 檔案系統是 Linux 的優秀特性之一,本文向您詳細講述了它的一些最實用的基礎知識。使用 /proc,您再也不用關閉并重新開機機器來管理作業系統的許多細節問題,這對那些要求系統的可用性盡可能高的管理者來說非常有用。

任何管理過具有商業重要性的系統的人都知道計算機正常運作時間的價值 - 或者反過來講,知道使用者因故障時間會給您帶來諸多頭痛問題。公司采用 UNIX 伺服器的主要原因之一是由于它的可靠性和穩定性。如果仔細管理,通常可以很長時間不需重新開機這些伺服器。為了做到盡善盡美,您可以實時執行一些管理任務,甚至是核心這一級别的任務,進而保持伺服器的可用性。雖然因更新硬體或因某人踢掉電源線而仍需要重新開機系統,但了解到許多管理任務可以在不幹擾服務的情況下執行,總是有益的。

本文提供了不需要重新開機就能夠執行關于各種管理任務和更改系統的提示和技巧。Linux 提供了各種方法,用以在保持系統正常運作的情況下,更改底層作業系統的值和設定。這些方法有兩種基本形式,一種形式對于所有 Linux 系統都是通用的,并在 Linux 核心中提供這一形式(您可以在 Linux Kernel Archives 上查找更多關于 Linux 核心的資訊和下載下傳核心源代碼;請參閱參考資料,裡面有至 Linux Kernel Archives 的連結),還有一種形式是各分發版所獨有的,并且由供應商提供。本文将讨論這兩種方法。

更改運作中的核心的參數

Linux 向管理者提供了非常好的方法,使他們可以在系統運作時更改核心,而不需要重新開機核心/系統。這是通過 /proc 虛拟檔案系統實作的。Linux Gazette 給出了一份有關 /proc 的參考,它是我所看到過的最簡單且最容易的參考之一。(請參閱參考資料,其中有至這篇文章的連結。)/proc 檔案系統主要可以讓您檢視運作中的核心,這一點對于監控性能、查找系統資訊、了解系統是如何配置的以及更改該配置很有用。該檔案系統被稱為虛拟檔案系統,因為它實際上根本不是一個檔案系統。它隻是核心提供的一個映射,被附加在通常的檔案系統結構之上,進而使您能夠通路它。

我們可以采用某種方法在系統正常運作的同時更改運作中的核心的參數,這一事實賦予了系統管理者在更改核心設定方面強大的能力和高的靈活性。這種實作是出自部分 Linux 核心開發人員富有靈感的想法。但能力太大會是一件壞事嗎?有時确實如此。如果準備更改 /proc 檔案系統中的任何内容,您必須確定自己知道在更改什麼以及這會對系統産生什麼影響。這些技術确實有用,但錯誤的舉動會帶來完全不希望得到的結果。如果您不熟悉這方面的内容,或者不确定您所做的某項更改會帶來什麼影響,那麼請在一台對您或您公司不重要的機器上進行實踐。

如何更改

首先,考慮怎樣做不會對核心進行更改。有兩條充分的理由說明了為什麼不能直接切換至 /proc 檔案系統,用文本編輯器打開一個檔案,做一系列更改,然後儲存該檔案,再退出。這兩條理由是:

資料完整性:所有這些檔案描述了運作中的系統,由于核心可以随時更改這些檔案中的任何一個,是以如果打開一個編輯器,然後更改某些資料,而同時,系統也正在底層更改這些資料,那麼無論您儲存下來的任何内容都不可能是核心所期望的内容。

虛拟檔案:所有這些檔案實際上都不存在。如何使儲存的資料同步,等等?

是以,解決辦法是,不使用編輯器來更改任何這些檔案。每當更改 /proc 檔案系統中的任何内容時,應該使用 echo 指令,然後從指令行将輸出重定向至 /proc 下所標明的檔案中。例如:

echo "Your-New-Kernel-Value" > /proc/your/file

類似的,如果希望檢視 /proc 中的資訊,應該使用專門用于此用途的指令,或者使用指令行下的 cat 指令。

更改什麼

要很好地使用 /proc 不需要您是一位核心方面的高手,隻需基本了解這個檔案系統的結構就可以極大地幫助您。直到有一天使用者向您詢問某些特定的功能,使您很高興曾下功夫了解過在哪裡進行更改,您才可能會覺得有必要知道關于 /proc 中的任何事情。在這方面,/proc 檔案系統通過其結構和檔案許可權幫助系統管理者。

/proc 中的每個檔案都有一組配置設定給它的非常特殊的檔案許可權,并且每個檔案屬于特定的使用者辨別。這一點實作得非常仔細,進而提供給管理者和使用者正确的功能。下面這個清單彙總了各個檔案上有哪些特定的許可權:

隻讀:任何使用者都不能更改該檔案;它用于表示系統資訊

root 寫:如果 /proc 中的某個檔案是可寫的,則通常隻能由 root 使用者來寫

root 讀:有些檔案對一般系統使用者是不可見的,而隻對 root 使用者是可見的

其它:出于各種原因,您可能會看到不同于上面常見的三種許可權的組合

關于 /proc,您會發現最通常的情況是,它的大多數檔案是隻讀的,除了 /proc/sys 目錄。該目錄下存放着大多數的核心參數(而不是資訊),并且設計成可以在系統運作的同時進行更改。是以這個目錄是本文的主旨所在。

就更改 /proc 中什麼内容而言,要了解的最後一點是,應該向這些檔案實際寫些什麼。當檢視 /proc 中各種檔案時,會發現其中一些檔案對我們來說是可讀的,一些檔案是資料檔案。通過用特定的實用程式(譬如 top、lspci 和 free),這些資料檔案仍然也可讀。您還會注意到,對我們來說可讀檔案有兩種不同格式:一些是二進制開關,另一些包含其它資訊。二進制開關檔案隻包含代表特定核心功能的 0(關)或 1(開)。

進行更改

詳細介紹有關 /proc 中每個檔案的用法和确切資訊超出了本文所涉及的範圍。要獲得任何關于本文沒有涉及到的 /proc 檔案的其它資訊,一個最佳來源就是 Linux 核心源代碼本身,它包含了一些非常優秀的文檔。對于系統管理者,/proc 中的以下檔案較有用。這不意味着它是一份詳盡的說明,而隻是日常使用中便于查閱的參考。

/proc/scsi

/proc/scsi/scsi

作為系統管理者,需要了解的最有用内容是,在有熱交換驅動器情況下,如何不重新開機系統就可以添加更多磁盤空間。假使不使用 /proc,您可以插入驅動器,但為了使系統識别新磁盤,必須随即重新開機系統。這裡,可以用以下指令來使系統識别新的驅動器:

echo "scsi add-single-device w x y z" > /proc/scsi/scsi

為使該指令正常運作,必須指定正确的參數值 w、x、y 和 z,如下所示:

w 是主機擴充卡辨別,第一個擴充卡為零(0)

x 是主機擴充卡上的 SCSI 通道,第一個通道為零(0)

y 是裝置的 SCSI 辨別

z 是 LUN 号,第一個 LUN 為零(0)

一旦将磁盤添加到系統中之後,可以挂裝任何先前已格式化的檔案系統,也可以開始對它進行格式化等。例如,如果不确定磁盤是什麼裝置,或者想檢查任何先前已有的分區,則可以用如 fdisk -l 這樣的指令來向您報告這方面的資訊。

相反的,在不重新開機系統的情況下将裝置從系統中除去的指令是:

echo "scsi remove-single-device w x y z" > /proc/scsi/scsi

在輸入這條指令并将熱交換 SCSI 磁盤從系統中除去之前,請確定首先卸下已從該磁盤安裝的任何檔案系統。

/proc/sys/fs/

/proc/sys/fs/file-max

該檔案指定了可以配置設定的檔案句柄的最大數目。如果使用者得到的錯誤消息聲明由于打開檔案數已經達到了最大值,進而他們不能打開更多檔案,則可能需要增加該值。可将這個值設定成有任意多個檔案,并且能通過将一個新數字值寫入該檔案來更改該值。

預設設定:4096

/proc/sys/fs/file-nr

該檔案與 file-max 相關,它有三個值:

已配置設定檔案句柄的數目

已使用檔案句柄的數目

檔案句柄的最大數目

該檔案是隻讀的,僅用于顯示資訊。

/proc/sys/fs/inode-*

任何以名稱"inode"開頭的檔案所執行的操作與上面那些以名稱"file"開頭的檔案所執行的操作一樣,但所執行的操作與索引節點有關,而與檔案句柄無關。

/proc/sys/fs/overflowuid 和 /proc/sys/fs/overflowgid

這兩個檔案分别儲存那些支援 16 位使用者辨別群組辨別的任何檔案系統的使用者辨別(UID)群組辨別(GID)。可以更改這些值,但如果您确實覺得需要這樣做,那麼您可能會發現更改組和密碼檔案項更容易些。

預設設定:65534

/proc/sys/fs/super-max

該檔案指定超級塊處理程式的最大數目。挂裝的任何檔案系統需要使用超級塊,是以如果挂裝了大量檔案系統,則可能會用盡超級塊處理程式。

預設設定:256

/proc/sys/fs/super-nr

該檔案顯示目前已配置設定超級塊的數目。該檔案是隻讀的,僅用于顯示資訊。

/proc/sys/kernel

/proc/sys/kernel/acct

該檔案有三個可配置值,根據包含日志的檔案系統上可用空間的數量(以百分比表示),這些值控制何時開始進行程序記帳:

如果可用空間低于這個百分比值,則停止程序記帳

如果可用空間高于這個百分比值,則開始程序記帳

檢查上面兩個值的頻率(以秒為機關)

要更改這個檔案的某個值,應該回送用空格分隔開的一串數字。

預設設定:2 4 30

如果包含日志的檔案系統上隻有少于 2% 的可用空間,則這些值會使記帳停止,如果有 4% 或更多可用空間,則再次啟動記帳。每 30 秒做一次檢查。

/proc/sys/kernel/ctrl-alt-del

該檔案有一個二進制值,該值控制系統在接收到 ctrl+alt+delete 按鍵組合時如何反應。這兩個值表示:

零(0)值表示捕獲 ctrl+alt+delete,并将其送至 init 程式。這将允許系統可以完美地關閉和重新開機,就好象您輸入 shutdown 指令一樣。

壹(1)值表示不捕獲 ctrl+alt+delete,将執行非幹淨的關閉,就好象直接關閉電源一樣。

預設設定:0

/proc/sys/kernel/domainname

該檔案允許您配置網絡域名。它沒有預設值,也許已經設定了域名,也許沒有設定。

/proc/sys/kernel/hostname

該檔案允許您配置網絡主機名。它沒有預設值,也許已經設定了主機名,也許沒有設定。

/proc/sys/kernel/msgmax

該檔案指定了從一個程序發送到另一個程序的消息的最大長度。程序間的消息傳遞是在核心的記憶體中進行,不會交換到磁盤上,是以如果增加該值,則将增加作業系統所使用的記憶體數量。

預設設定:8192

/proc/sys/kernel/msgmnb

該檔案指定在一個消息隊列中最大的位元組數。

預設設定:16384

/proc/sys/kernel/msgmni

該檔案指定消息隊列辨別的最大數目。

預設設定:16

/proc/sys/kernel/panic

該檔案表示如果發生"核心嚴重錯誤(kernel panic)",則核心在重新開機之前等待的時間(以秒為機關)。零(0)秒設定在發生核心嚴重錯誤時将禁止重新開機。

/proc/sys/kernel/printk

該檔案有四個數字值,它們根據日志記錄消息的重要性,定義将其發送到何處。關于不同日志級别的更多資訊,請閱讀 syslog(2) 聯機幫助頁。該檔案的四個值為:

控制台日志級别:優先級高于該值的消息将被列印至控制台

預設的消息日志級别:将用該優先級來列印沒有優先級的消息

最低的控制台日志級别:控制台日志級别可被設定的最小值(最高優先級)

預設的控制台日志級别:控制台日志級别的預設值

預設設定:6 4 1 7

/proc/sys/kernel/shmall

該檔案是在任何給定時刻系統上可以使用的共享記憶體的總量(以位元組為機關)。

預設設定:2097152

/proc/sys/kernel/shmax

該檔案指定核心所允許的最大共享記憶體段的大小(以位元組為機關)。

預設設定:33554432

/proc/sys/kernel/shmmni

該檔案表示用于整個系統共享記憶體段的最大數目。

/proc/sys/kernel/sysrq

如果該檔案指定的值為非零,則激活 System Request Key。

/proc/sys/kernel/threads-max

該檔案指定核心所能使用的線程的最大數目。

預設設定:2048

/proc/sys/net

/proc/sys/net/core/message_burst

寫新的警告消息所需的時間(以 1/10 秒為機關);在這個時間内所接收到的其它警告消息會被丢棄。這用于防止某些企圖用消息"淹沒"您系統的人所使用的拒絕服務(Denial of Service)攻擊。

預設設定:50(5 秒)

/proc/sys/net/core/message_cost

該檔案存有與每個警告消息相關的成本值。該值越大,越有可能忽略警告消息。

預設設定:5

/proc/sys/net/core/netdev_max_backlog

該檔案指定了,在接口接收資料包的速率比核心處理這些包的速率快時,允許送到隊列的資料包的最大數目。

預設設定:300

/proc/sys/net/core/optmem_max

該檔案指定了每個套接字所允許的最大緩沖區的大小。

/proc/sys/net/core/rmem_default

該檔案指定了接收套接字緩沖區大小的預設值(以位元組為機關)。

/proc/sys/net/core/rmem_max

該檔案指定了接收套接字緩沖區大小的最大值(以位元組為機關)。

/proc/sys/net/core/wmem_default

該檔案指定了發送套接字緩沖區大小的預設值(以位元組為機關)。

/proc/sys/net/core/wmem_max

該檔案指定了發送套接字緩沖區大小的最大值(以位元組為機關)。

/proc/sys/net/ipv4

所有 IPv4 和 IPv6 的參數都被記錄在核心源代碼文檔中。請參閱檔案 /usr/src/linux/Documentation/networking/ip-sysctl.txt。

/proc/sys/net/ipv6

同 IPv4。

/proc/sys/vm

/proc/sys/vm/buffermem

該檔案控制用于緩沖區記憶體的整個系統記憶體的數量(以百分比表示)。它有三個值,通過把用空格相隔的一串數字寫入該檔案來設定這三個值。

用于緩沖區的記憶體的最低百分比

如果發生所剩系統記憶體不多,而且系統記憶體正在減少這種情況,系統将試圖維護緩沖區記憶體的數量。

用于緩沖區的記憶體的最高百分比

預設設定:2 10 60

/proc/sys/vm/freepages

該檔案控制系統如何應對各種級别的可用記憶體。它有三個值,通過把用空格相隔的一串數字寫入該檔案來設定這三個值。

如果系統中可用頁面的數目達到了最低限制,則隻允許核心配置設定一些記憶體。

如果系統中可用頁面的數目低于這一限制,則核心将以較積極的方式啟動交換,以釋放記憶體,進而維持系統性能。

核心将試圖保持這個數量的系統記憶體可用。低于這個值将啟動核心交換。

預設設定:512 768 1024

/proc/sys/vm/kswapd

該檔案控制允許核心如何交換記憶體。它有三個值,通過把用空格相隔的一串數字寫入該檔案來設定這三個值:

核心試圖一次釋放的最大頁面數目。如果想增加記憶體交換過程中的帶寬,則需要增加該值。

核心在每次交換中試圖釋放頁面的最少次數。

核心在一次交換中所寫頁面的數目。這對系統性能影響最大。這個值越大,交換的資料越多,花在磁盤尋道上的時間越少。然而,這個值太大會因"淹沒"請求隊列而反過來影響系統性能。

預設設定:512 32 8

/proc/sys/vm/pagecache

該檔案與 /proc/sys/vm/buffermem 的工作内容一樣,但它是針對檔案的記憶體映射和一般高速緩存。

使核心設定具有持久性

這裡提供了一個友善的實用程式,用于更改 /proc/sys 目錄下的任何核心參數。它使您可以更改運作中的核心(類似于上面用到的 echo 和重定向方法),但它還有一個在系統引導時執行的配置檔案。這使您可以更改運作中的核心,并将這些更改添加到配置檔案,以便于在系統重新開機之後,這些更改仍然生效。

該實用程式稱為 sysctl,在 sysctl(8) 的聯機幫助頁中,對這個實用程式進行了完整的文檔說明。sysctl 的配置檔案是 /etc/sysctl.conf,可以編輯該檔案,并在 sysctl.conf(8) 下記錄了該檔案。sysctl 将 /proc/sys 下的檔案視為可以更改的單個變量。是以,以 /proc/sys 下的檔案 /proc/sys/fs/file-max 為例,它表示系統中所允許的檔案句柄的最大數目,這個檔案被表示成 fs.file-max。

這個示例揭示了 sysctl 表示法中的一些奇妙事情。由于 sysctl 隻能更改 /proc/sys 目錄下的變量,并且人們始終認為變量是在這個目錄下,是以省略了變量名的那一部分(/proc/sys)。另一個要說明的更改是,将目錄分隔符(正斜杠 /)換成了英文中的句号(點 .)。

将 /proc/sys 中的檔案轉換成 sysctl 中的變量有兩個簡單的規則:

去掉前面部分 /proc/sys。

将檔案名中的正斜杠變為點。

這兩條規則使您能将 /proc/sys 中的任一檔案名轉換成 sysctl 中的任一變量名。一般檔案到變量的轉換為:

/proc/sys/dir/file --> dir.file

dir1.dir2.file --> /proc/sys/dir1/dir2/file

可以使用指令 sysctl -a 檢視所有可以更改的變量和其目前設定。

用 sysctl 還可以更改變量,它所做的工作與上面所用的 echo 方法完全一樣。其表示法為:

sysctl -w dir.file="value"

還是用 file-max 作為示例,使用下面兩種方法中的一種将該值更改為 16384:

sysctl -w fs.file-max="16384"

或者:

echo "16384" > /proc/sys/fs/file-max

不要忘記 sysctl 不會将所做的更改添加到配置檔案中;這要您用手工來完成。如果您希望在重新開機之後,前面所做的更改仍然有效,則必須維護這個配置檔案。

注:不是所有的分發版都提供 sysctl 支援。如果您的特定系統屬于這種情況,則可以用上面所描述的 echo 和重定向方法,将這些指令添加到啟動腳本中,這樣系統每次引導時,都會執行它們。

用于設定系統的指令

在系統運作的同時更改其它非核心系統參數,而且在不重新開機系統的情況下使這些設定生效,這種做法是可能的。在 /etc/init.d 目錄中列出了包含這些參數的檔案,它們主要按服務、守護程式和伺服器來分類。由于越來越多各方面的腳本可以羅列在這個目錄下,是以這裡不可能讨論所有各種配置。不過,下面列舉了一些示例,這些示例讨論了如何在不同的 Linux 分發版上操作 /etc/init.d 下的腳本。這裡的示例可能很有用,其中讨論了更改守護程式,然後在不重新開機系統的情形下重新裝入配置:

更改 Web 伺服器配置,然後重新裝入 Apache

除去不需要的 inetd 登入服務

操作網絡設定

通過 NFS 導出新的檔案系統

啟動/停止防火牆

首先,常見的方法是,直接通過 /etc/init.d 中的腳本來作業系統服務。這些腳本用參數來操作它們所控制的服務;可以通過輸入腳本名但不帶任何參數這種方法來檢視有哪些有效的選項。常見的參數有:

start:啟動已停止的服務

stop:停止正在運作的服務

restart:停止正在運作的服務,然後再重新開機該服務;它将啟動已停止的服務

reload:在不中斷任何連接配接的情況下,重新裝入服務配置

status:報告服務處于運作狀态,還是停止狀态

例如,下面這條指令将在不終止任何已連接配接的使用者會話的情形下,重新裝入 xinetd 配置(如果您更改了 /etc/xinetd.conf,那麼這條指令很有用):

/etc/init.d/xinetd reload

Red Hat 提供了 service 這條指令,它可以為您操作服務。service 指令提供的功能與輸入腳本名本身的功能一樣。它的文法如下所示:

service script-name [parameter]

例如:

service xinetd reload

SuSE 也提供名為 rc 的指令。該指令類似于上面的 service 指令,但該指令與腳本名之間沒有空格。它的文法如下所示:

rc{script-name} parameter

rcapache start

與更改核心參數類似,一旦重新開機系統,則對這些服務的更改将會丢失。現在越來越多的分發版開始采用 chkconfig 指令,它管理在各種運作級别下(包括引導時)啟動的服務。在撰寫本文時,chkconfig 指令的文法會因 Linux 版本的不同而略有差異,不過如果輸入不帶任何參數的指令 chkconfig,則會顯示一個如何使用該指令的清單。也可以通過 chkconfig(8) 的聯機幫助頁找到更多有關 chkconfig 的資訊。

繼續閱讀