在Linux下,我們使用<b>ulimit -n</b> 指令可以看到單個程序能夠打開的最大檔案句柄數量(socket連接配接也算在裡面)。系統預設值1024。
對于一般的應用來說(象Apache、系統程序)1024完全足夠使用。但是如何象squid、mysql、java等單程序處理大量請求的應用來說就有點捉襟見肘了。如果單個程序打開的檔案句柄數量超過了系統定義的值,就會提到“too many files open”的錯誤提示。如何知道目前程序打開了多少個檔案句柄呢?下面一段小腳本可以幫你檢視:
lsof -n |awk '{print $2}'|sort|uniq -c |sort -nr|more
在系統通路高峰時間以root使用者執行上面的腳本,可能出現的結果如下:
# lsof -n|awk '{print $2}'|sort|uniq -c |sort -nr|more
131 24204
57 24244
57 24231
56 24264
其中第一行是打開的檔案句柄數量,第二行是程序号。得到程序号後,我們可以通過ps指令得到程序的詳細内容。
ps -aef|grep 24204
mysql 24204 24162 99 16:15 ? 00:24:25 /usr/sbin/mysqld
哦,原來是mysql程序打開最多檔案句柄數量。但是他目前隻打開了131個檔案句柄數量,遠遠底于系統預設值1024。
但是如果系統并發特别大,尤其是squid伺服器,很有可能會超過1024。這時候就必須要調整系統參數,以适應應用變化。Linux有硬性限制和軟性限制。可以通過ulimit來設定這兩個參數。方法如下,以root使用者運作以下指令:
ulimit -HSn 4096
以上指令中,H指定了硬性大小,S指定了軟性大小,n表示設定單個程序最大的打開檔案句柄數量。個人覺得最好不要超過4096,畢竟打開的檔案句柄數越多響應時間肯定會越慢。設定句柄數量後,系統重新開機後,又會恢複預設值。如果想永久儲存下來,可以修改.bash_profile檔案,可以修改 /etc/profile 把上面指令加到最後。(findsun提出的辦法比較合理)
=================================================================================
Too many open files經常在使用linux的時候出現,大多數情況是您的程式沒有正常關閉一些資源引起的,是以出現這種情況,請檢查io讀寫,socket通訊等是否正常關閉。
如果檢查程式沒有問題,那就有可能是linux預設的open files值太小,不能滿足目前程式預設值的要求,比如資料庫連接配接池的個數,tomcat請求連接配接的個數等。。。
檢視目前系統open files的預設值,可執行:
[root@pororo script]# ulimit -a
core file size (blocks, -c) 0
data seg size (kbytes, -d) unlimited
scheduling priority (-e) 0
file size (blocks, -f) unlimited
pending signals (-i) 128161
max locked memory (kbytes, -l) 32
max memory size (kbytes, -m) unlimited
open files (-n) 800000
pipe size (512 bytes, -p) 8
POSIX message queues (bytes, -q) 819200
real-time priority (-r) 0
stack size (kbytes, -s) 10240
cpu time (seconds, -t) unlimited
max user processes (-u) 128161
virtual memory (kbytes, -v) unlimited
file locks (-x) unlimited
如果發現open files項比較小,可以按如下方式更改:
1. 檢查/proc/sys/fs/file-max檔案來确認最大打開檔案數已經被正确設定。
# cat /proc/sys/fs/file-max
如果設定值太小,修改檔案/etc/sysctl.conf的變量到合适的值。這樣會在每次重新開機之後生效。 如果設定值夠大,跳過這一步。
# echo 2048 > /proc/sys/fs/file-max
編輯檔案/etc/sysctl.conf,插入下行:
fs.file-max = 8192
2. 在/etc/security/limits.conf檔案中設定最大打開檔案數, 下面是一行提示:
#<domain> <type> <item> <value>
添加如下這行:
* - nofile 8192
這行設定了每個使用者的預設打開檔案數為2048。 注意"nofile"項有兩個可能的限制措施。就是<type>項下的hard和soft。 要使修改過得最大打開檔案數生效,必須對這兩種限制進行設定。 如果使用"-"字元設定<type>, 則hard和soft設定會同時被設定。
硬限制表明soft限制中所能設定的最大值。 soft限制指的是目前系統生效的設定值。 hard限制值可以被普通使用者降低。但是不能增加。 soft限制不能設定的比hard限制更高。 隻有root使用者才能夠增加hard限制值。
當增加檔案限制描述,可以簡單的把目前值雙倍。 例子如下, 如果你要提高預設值1024, 最好提高到2048, 如果還要繼續增加, 就需要設定成4096。
最後用ulimit -a再次檢視,open files的值,沒什麼問題的話,就已經改過來了。
<b>關于can't identify protocol問題定位</b>
問題定位步驟:
1、 用root帳戶 周遊 /proc/程序ID/fd目錄,如果該目錄下檔案數比較大(如果大于10,一般就屬于socket洩漏),根據該程序ID,可以确認該程序ID所對應的名稱。
2、 重新開機程式恢複服務,以便後續查找問題。
3、 strace 該程式并記錄strace資訊。strace –p 程序ID >>/tmp/stracelog.log 2>&1
4、 檢視 /proc/程序ID/fd 下的檔案數目是否有增加,如果發現有增加,記錄上一個socket編号,停止strace
5、 确認問題代碼的位置。打開/tmp/stracelog.log,從尾部向上查找close(socket編号)所在行,可以确認在該次close後再次建立的socket沒有關閉,根據socket連接配接的server ip可以确認問題代碼的位置。
另一種方法:判斷是否有socket洩漏:
lsof | grep "can't identify protocol"
如果存在很多,則代表socket洩漏,同時會顯示哪個程序使用的sock未關閉。
本文轉自 holy2009 51CTO部落格,原文連結:http://blog.51cto.com/holy2010/911734