天天看點

Too_many_open_files_問題的解決

 在Linux下,我們使用<b>ulimit -n</b> 指令可以看到單個程序能夠打開的最大檔案句柄數量(socket連接配接也算在裡面)。系統預設值1024。

    對于一般的應用來說(象Apache、系統程序)1024完全足夠使用。但是如何象squid、mysql、java等單程序處理大量請求的應用來說就有點捉襟見肘了。如果單個程序打開的檔案句柄數量超過了系統定義的值,就會提到“too many files open”的錯誤提示。如何知道目前程序打開了多少個檔案句柄呢?下面一段小腳本可以幫你檢視:

lsof -n |awk '{print $2}'|sort|uniq -c |sort -nr|more   

在系統通路高峰時間以root使用者執行上面的腳本,可能出現的結果如下:

# lsof -n|awk '{print $2}'|sort|uniq -c |sort -nr|more   

    131 24204  

     57 24244  

     57 24231  

     56 24264  

其中第一行是打開的檔案句柄數量,第二行是程序号。得到程序号後,我們可以通過ps指令得到程序的詳細内容。

ps -aef|grep 24204  

mysql    24204 24162 99 16:15 ?        00:24:25 /usr/sbin/mysqld  

哦,原來是mysql程序打開最多檔案句柄數量。但是他目前隻打開了131個檔案句柄數量,遠遠底于系統預設值1024。

但是如果系統并發特别大,尤其是squid伺服器,很有可能會超過1024。這時候就必須要調整系統參數,以适應應用變化。Linux有硬性限制和軟性限制。可以通過ulimit來設定這兩個參數。方法如下,以root使用者運作以下指令:

ulimit -HSn 4096  

以上指令中,H指定了硬性大小,S指定了軟性大小,n表示設定單個程序最大的打開檔案句柄數量。個人覺得最好不要超過4096,畢竟打開的檔案句柄數越多響應時間肯定會越慢。設定句柄數量後,系統重新開機後,又會恢複預設值。如果想永久儲存下來,可以修改.bash_profile檔案,可以修改 /etc/profile 把上面指令加到最後。(findsun提出的辦法比較合理)

=================================================================================

Too many open files經常在使用linux的時候出現,大多數情況是您的程式沒有正常關閉一些資源引起的,是以出現這種情況,請檢查io讀寫,socket通訊等是否正常關閉。 

如果檢查程式沒有問題,那就有可能是linux預設的open files值太小,不能滿足目前程式預設值的要求,比如資料庫連接配接池的個數,tomcat請求連接配接的個數等。。。 

檢視目前系統open files的預設值,可執行:

[root@pororo script]# ulimit -a   

core file size           (blocks, -c) 0  

data seg size            (kbytes, -d) unlimited   

scheduling priority              (-e) 0  

file size                (blocks, -f) unlimited   

pending signals                  (-i) 128161  

max locked memory        (kbytes, -l) 32  

max memory size          (kbytes, -m) unlimited   

open files                       (-n) 800000  

pipe size             (512 bytes, -p) 8  

POSIX message queues      (bytes, -q) 819200  

real-time priority               (-r) 0  

stack size               (kbytes, -s) 10240  

cpu time                (seconds, -t) unlimited   

max user processes               (-u) 128161  

virtual memory           (kbytes, -v) unlimited   

file locks                       (-x) unlimited  

如果發現open files項比較小,可以按如下方式更改: 

1. 檢查/proc/sys/fs/file-max檔案來确認最大打開檔案數已經被正确設定。

# cat /proc/sys/fs/file-max  

如果設定值太小,修改檔案/etc/sysctl.conf的變量到合适的值。這樣會在每次重新開機之後生效。 如果設定值夠大,跳過這一步。

# echo 2048 &gt; /proc/sys/fs/file-max  

編輯檔案/etc/sysctl.conf,插入下行:

fs.file-max = 8192  

2. 在/etc/security/limits.conf檔案中設定最大打開檔案數, 下面是一行提示:

#&lt;domain&gt;   &lt;type&gt;   &lt;item&gt;   &lt;value&gt;  

添加如下這行:

* - nofile 8192  

這行設定了每個使用者的預設打開檔案數為2048。 注意"nofile"項有兩個可能的限制措施。就是&lt;type&gt;項下的hard和soft。 要使修改過得最大打開檔案數生效,必須對這兩種限制進行設定。 如果使用"-"字元設定&lt;type&gt;, 則hard和soft設定會同時被設定。 

硬限制表明soft限制中所能設定的最大值。 soft限制指的是目前系統生效的設定值。 hard限制值可以被普通使用者降低。但是不能增加。 soft限制不能設定的比hard限制更高。 隻有root使用者才能夠增加hard限制值。 

當增加檔案限制描述,可以簡單的把目前值雙倍。 例子如下, 如果你要提高預設值1024, 最好提高到2048, 如果還要繼續增加, 就需要設定成4096。 

最後用ulimit -a再次檢視,open files的值,沒什麼問題的話,就已經改過來了。

<b>關于can't identify protocol問題定位</b>

問題定位步驟: 

1、 用root帳戶 周遊 /proc/程序ID/fd目錄,如果該目錄下檔案數比較大(如果大于10,一般就屬于socket洩漏),根據該程序ID,可以确認該程序ID所對應的名稱。 

2、 重新開機程式恢複服務,以便後續查找問題。 

3、 strace 該程式并記錄strace資訊。strace –p 程序ID &gt;&gt;/tmp/stracelog.log 2&gt;&amp;1 

4、 檢視 /proc/程序ID/fd 下的檔案數目是否有增加,如果發現有增加,記錄上一個socket編号,停止strace 

5、 确認問題代碼的位置。打開/tmp/stracelog.log,從尾部向上查找close(socket編号)所在行,可以确認在該次close後再次建立的socket沒有關閉,根據socket連接配接的server ip可以确認問題代碼的位置。 

另一種方法:判斷是否有socket洩漏: 

lsof | grep "can't identify protocol" 

如果存在很多,則代表socket洩漏,同時會顯示哪個程序使用的sock未關閉。 

 本文轉自 holy2009 51CTO部落格,原文連結:http://blog.51cto.com/holy2010/911734