本文由高效運維社群核心成員投稿釋出
作者簡介
劉晨
網名 bisal,Oracle 技術愛好者,擁有 Oracle 10g/11g OCP、Oracle 11g OCM認證,Oracle YEP 成員,目前就職于一家央企,負責系統應用運維工作。
你是否碰見過 Linux 環境下,檔案已經删除,但是空間未被釋放的情況?這篇小文就會介紹一下,這種問題的一個場景,以及相應的解決方案。
我們的一台應用伺服器,作業系統是 Red Hat Linux,監控報警,
/opt/applog
檔案系統使用率超門檻值,整體容量為50G,但發現實際檔案容量20G,剩下的30G空間是什麼?
我們知道,Linux 環境下,任何事物,都是以檔案的形式存在,系統在背景,為每個應用程式,配置設定了一個檔案描述符,他為應用程式和作業系統之間的互動操作提供了通用的接口,既然是檔案,就會占用空間,此時可以使用 lsof 指令,他可以列出,目前系統正在打開的檔案。
>lsof
COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME
...
filebeat 111442 app 1r REG 253,3 209715229 1040407 /opt/applog/E.20171016.info.012.log
filebeat 111442 app 2r REG 253,3 209715254 385080 /opt/applog/E.20171015.info.001.log (deleted)
...
表頭各字段,含義如下:
COMMAND:程序的名稱
PID:程序辨別符
USER:程序所有者
FD:檔案描述符,應用程式通過檔案描述符識别該檔案。如cwd、txt等
TYPE:檔案類型,如DIR、REG等
DEVICE:指定磁盤的名稱
SIZE:檔案的大小
NODE:索引節點(檔案在磁盤上的辨別)
NAME:打開檔案的确切名稱
可以看出,有一些行中,NAME辨別了(deleted)
/opt/applog/E.20171015.info.001.log (deleted)
他的含義,就是這檔案已被删除,但打開檔案的句柄,并未關閉,再看 COMMAND 的名稱是 filebeat,USER 程序所有者是 app,這是我們的日志采集程序,app 使用者開啟了 filebeat 程序。
插播一下日志采集平台
傳統的開源日志平台,即 ELK,由 ElasticSearch、Logstash 和 Kiabana 三個開源工具組成,其中:
- Elasticsearch 是個開源分布式搜尋引擎,分布式,零配置,自動發現,索引自動分片,索引副本機制,restful 風格接口,多資料源,自動搜尋負載等。
- Logstash 是一個開源的采集工具,他可以對日志進行收集、過濾,并将其存儲供以後使用。
- Kibana 是一個開源的圖形 Web 工具,可以為 Logstash 和 ElasticSearch 提供日志分析友好的 Web 界面,可以彙總、分析和搜尋重要資料日志。
常見的部署圖,如下所示

對于上面提到的 filebeat 又是什麼?和 ELK 有什麼聯系?
知乎上有一段大牛饒琛琳的介紹(《ELKstack 權威指南》作者),非常精辟,引自
https://www.zhihu.com/question/54058964/answer/137882919
因為 logstash 是 jvm 跑的,資源消耗比較大,是以後來作者又用 golang 寫了一個功能較少但是資源消耗也小的輕量級的 logstash-forwarder。不過作者隻是一個人,加入 http://elastic.co
公司以後,因為 es 公司本身還收購了另一個開源項目 packetbeat,而這個項目專門就是用 golang 的,有整個團隊,是以 es 公司幹脆把 logstash-forwarder 的開發工作也合并到同一個 golang 團隊來搞,于是新的項目就叫 filebeat 了。
簡單來講,filebeat 就是日志采集的程序 agent,負責采集應用日志檔案。
對于我上面的這個問題,之是以有大量的(deleted),未釋放檔案句柄,還有個背景,就是由于磁盤空間非常有限,臨時加了任務,每小時删除12小時前的日志,換句話說,定時任務會自動删除此時 filebeat 正在打開着的一些檔案,于是這些檔案,就變為了未釋放的檔案,是以實際檔案删除了,但空間未被釋放。
解決方案1:
為了迅速釋放空間占用,最直接的方法,就是 kill -9 filebeat 程序,此時空間會釋放。但并不是從根本解決,定時任務還會删除這些,filebeat 打開的檔案,導緻空間滿。
解決方案2:
filebeat 的配置檔案 filebeat.yml,其實有兩個參數:
-
close_older: 1h
說明:Close older closes the file handler for which were not modified for longer then close_older. Time strings like 2h (2 hours), 5m (5 minutes) can be used.
即如果一個檔案在某個時間段内沒有發生過更新,則關閉監控的檔案handle,預設1小時。
-
force_close_files: false
說明:This option closes a file, as soon as the file name changes. This config option is recommended on windows only. Filebeat keeps the files it’s reading open. This can cause issues when the file is removed, as the file will not be fully removed until also Filebeat closes the reading. Filebeat closes the file handler after ignore_older. During this time no new file with the same name can be created. Turning this feature on the other hand can lead to loss of data on rotate files. It can happen that after file rotation the beginning of the new file is skipped, as the reading starts at the end. We recommend to leave this option on false but lower the ignore_older value to release files faster.
即當檔案名稱有變化時,包括改名和删除,會自動關閉一個檔案。
這兩個參數結合起來,根據應用需求,一個檔案30分鐘内不更新,則需要關閉句柄,檔案改名或删除,需要關閉句柄
close_older: 30m
force_close_files: true
可以滿足,filebeat 采集日志,以及定時删除曆史檔案,這兩個任務的基本要求。