天天看點

vivo大資料日志采集Agent設計實踐

作者:閃念基因

作者:vivo 網際網路存儲技術團隊- Qiu Sidi

在企業大資料體系建設過程中,資料采集是其中的首要環節。然而,目前行業内的相關開源資料采集元件,并無法滿足企業大規模資料采集的需求與有效的資料采集治理,是以大部分企業都采用自研開發采集元件的方式。本文通過在vivo的日志采集服務的設計實踐經驗,為大家提供日志采集Agent在設計開發過程中的關鍵設計思路。

一、概述

在企業大資料體系的建設過程中,資料的處理一般包含4個步驟:采集、存儲、計算和使用。其中,資料采集,是建設過程中的首要的環節,也是至關重要的環節,如果沒有采集就沒有資料,更談不上後續的資料處理與使用。是以,我們看到的企業中的營運報表、決策報表、日志監控、審計日志等的資料來源都是基于資料采集。一般的,我們對資料采集的定義是,把各種分散的源頭上的資料(可以包括企業産品的埋點的日志、伺服器日志、資料庫、IOT裝置日志等)統一彙聚到大資料存儲元件的過程(如下圖所示)。其中,日志檔案類型的采集場景,是各種資料采集類型中最常見的一種。接下來,将圍繞該場景提出我們的設計實踐方案。

vivo大資料日志采集Agent設計實踐

通常,日志采集服務可以分為幾個部分(業界常見的架構如下圖所示):日志采集Agent元件(常見的開源采集Agent元件有Flume、Logstash、Scribe等)、采集傳輸與存儲元件(如kafka、HDFS)、采集管理平台。Bees采集服務是vivo自研的日志采集服務,本文章是通過在Bees采集服務中的關鍵元件bees-agent的開發實踐後,總結出一個通用的日志采集Agent設計中的核心技術點和一些關鍵思考點,希望對大家有用。

vivo大資料日志采集Agent設計實踐

二、特性&能力

  1. 具備基本的日志檔案的實時與離線采集能力
  2. 基于日志檔案,無侵入式采集日志
  3. 具備自定義的過濾超大日志的能力
  4. 具備自定義的過濾采集、比對采集、格式化的能力
  5. 具備自定義的限速采集的能力
  6. 具備秒級别的實時采集時效性
  7. 具備斷點續傳能力,更新和停止不丢資料
  8. 具備可視化的、中心化的采集任務管理平台
  9. 豐富的監控名額與告警(包括采集流量、時效性、完整性等)
  10. 低系統資源開銷(包括磁盤、記憶體、CPU及網絡等)

三、設計原則

  1. 簡單優雅
  2. 健壯穩定

四、關鍵設計

目前業界流行的日志采集Agent元件,開源的有Flume、Logstash、Scribe、FileBeats、Fluentd等,自研的有阿裡的Logtail。它們都有不錯的性能與穩定性,如果想要快速上手,可以不妨使用它們。但是一般大企業會有個性化的采集需求,比如采集任務大規模管理、采集限速、采集過濾等,還有采集任務平台化、任務可視化的需求,為了滿足上面這些需求我們自研了一個日志采集Agent。

在做一切的設計和開發之前,我們設定了采集Agent最基本的設計原則,即簡單優雅、健壯穩定。

日志檔案采集的一般流程會包括:檔案的發現與監聽、檔案讀取,日志内容的格式化、過濾、聚合與發送。當我們開始着手開始設計這樣一個日志采集Agent時,會遇到不少關鍵的難點問題,比如:日志檔案在哪裡?如何發現日志檔案新增?如何監聽日志内容追加?如何識别一個檔案?當機重新開機怎麼辦?如何斷點續傳?等等問題,接下來,我們針對日志采集Agent設計過程中遇到的關鍵問題,為大家一一解答。(注:下文出現的檔案路徑與檔案名都為示範樣例非真實路徑)

4.1 日志檔案發現與監聽

Agent要如何知道采集哪些日志檔案呢?

最簡單的設計,就是在Agent的本地配置檔案中,把需要采集的日志檔案路徑都一一羅列進去,比如 /home/sample/logs/access1.log、/home/sample/logs/access2.log、/home/sample/logs/access3.log 等,這樣Agent通過讀取配置檔案得到對應的日志檔案清單,這樣就能周遊檔案清單讀取日志資訊。但是實際情況是,日志檔案是動态生成的,像一般tomcat的業務日志,每個小時都會滾動生成一個新的的日志檔案,日志名字通常會帶上時間戳,命名類似 /data/sample/logs/

access.2021110820.log,是以采用直接配置固定的檔案清單方式是行不通的。

是以,我們想到可以使用一個檔案夾路徑和日志檔案名使用正規表達式或者通配符來表示(為了友善,下文統一使用通配符來表示)。機器上的日志一般固定存在某一個目錄下,比如 /data/sample/logs/ 下,檔案名由于某種規則是滾動産生的(比如時間戳),類似 access.2021110820.log、

access.2021110821.log、

access.2021110822.log,我們可以簡單粗暴使用 access.*.log 的通配方法來比對這一類的日志,當然實際情況可以根據你需要的比對粒度去選擇你的正規表達式。有了這個通配符方法,我們的Agent就能的比對滾動産生的一批日志檔案了。

如何持續發現和監聽到新産生的日志檔案呢?

由于新的日志檔案會由其他應用程式(比如Nginx、Tomcat等)持續的按小時動态産生的,Agent如何使用通配符快速去發現這個新産生的檔案呢?

最容易想到的,是使用輪詢的設計方案,即是通過一個定時任務來檢查對應目錄下的日志檔案是否有增加,但是這種簡單的方案有個問題,就是如果輪詢間隔時間太長,比如間隔設定為10s、5s,那麼日志采集的時效性滿足不了我們的需求;如果輪詢間隔時間太短,比如500ms,大量的無效的輪詢檢查又會消耗許多CPU資源。幸好,Linux核心給我們提供一種高效的檔案事件監聽機制:Linux Inotify機制。該機制可監聽任意檔案的操作,比如檔案建立、檔案删除和檔案内容變更,核心會給應用層一個對應的事件通知。Inotify這種的事件機制比輪詢機制高效的多,也不存在CPU空跑浪費系統資源的情況。在java中,使用java.nio.file.WatchService,可以參考如下核心代碼:

/**
 * 訂閱檔案或目錄的變更事件
 */
public synchronized BeesWatchKey watchDir(File dir, WatchEvent.Kind<?>... watchEvents) throws IOException {
    if (!dir.exists() && dir.isFile()) {
        throw new IllegalArgumentException("watchDir requires an exist directory, param: " + dir);
    }
    Path path = dir.toPath().toAbsolutePath();
    BeesWatchKey beesWatchKey = registeredDirs.get(path);
    if (beesWatchKey == null) {
        beesWatchKey = new BeesWatchKey(subscriber, dir, this, watchEvents);
        registeredDirs.put(path, beesWatchKey);
        logger.info("successfully watch dir: {}", dir);
    }
    return beesWatchKey;
}
 
public synchronized BeesWatchKey watchDir(File dir) throws IOException {
    WatchEvent.Kind<?>[] events = {
            StandardWatchEventKinds.ENTRY_CREATE,
            StandardWatchEventKinds.ENTRY_DELETE,
            StandardWatchEventKinds.ENTRY_MODIFY
    };
    return watchDir(dir, events);
}           

綜合以上思考,日志檔案的發現和日志内容變更的監聽,我們使用的是"inotify機制為主+輪詢機制兜底"、"通配符"的設計方案,如下圖所示:

4.2 日志檔案的唯一辨別

要設計日志檔案的唯一辨別,如果直接使用日志檔案的名稱是行不通的,日志檔案名可能被頻繁重複使用,比如,一些應用程式使用的日志架構在輸出日志時,對于目前應用正在輸出的日志命名是不帶任何時間戳資訊的,比如固定是 access.log,隻有等到目前小時寫入檔案完畢時,才把檔案重命名為 access.2021110820.log,此時新生産的日志檔案命名也是 access.log,該檔案名對于采集Agent來說是重複的,是以檔案名是無法作為檔案唯一辨別。

我們想到使用Linux作業系統上的檔案inode号作為檔案辨別符。Unix/Linux檔案系統使用inode号來識别不同檔案,即使移動檔案或重命名檔案,inode号是保持不變的,建立一個新檔案,會給這個新檔案配置設定一個新的不重複的inode号,這樣就能與現有磁盤上的其他檔案很好區分。我們使用 ls -i access.log 可以快速檢視該檔案的inode号,如下代碼塊所示:

ls -i access.log
62651787 access.log           

一般來說,使用系統的inode号作為辨別,已經能滿足大多數的情況了,但是為了更嚴謹的考慮,還可以進一步更新方案。因為Linux 的inode号存在複用的情況,這裡的"複用"要和"重複"差別一下,在一台機器上的所有檔案不會同一時刻出現重複的兩個inode号,但是當檔案删除後,另一個新檔案建立時,這個檔案的inode号是可能複用之前删除檔案的inode号的,代碼邏輯處理不好,很可能造成日志檔案漏采集,這一點是要注意的。為了規避這個問題,我們把檔案的唯一辨別設計為" 檔案inode與檔案簽名組合",這裡的檔案簽名使用的是該檔案内容前128位元組的Hash值,代碼參考如下:

public static String signFile(File file) throws IOException {
        String filepath = file.getAbsolutePath();
        String sign = null;
        RandomAccessFile raf = new RandomAccessFile(filepath, "r");
        if (raf.length() >= SIGN_SIZE) {
           byte[] tbyte = new byte[SIGN_SIZE];
           raf.seek(0);
           raf.read(tbyte);
           sign = Hashing.sha256().hashBytes(tbyte).toString();
        }
        return sign;
    }           

關于inode再補充點小知識。Linux inode是會滿的,inode的資訊存儲本身也會消耗一些硬碟空間,因為inode号隻是inode内容中的一小部分,inode内容主要是包含檔案的中繼資料資訊:如檔案的位元組數、檔案資料block的位置、檔案的讀寫執行權限、檔案的時間戳等,可以用stat指令,檢視某個檔案完整的inode資訊(stat access.log)。因為這樣的設計,作業系統是将硬碟分成兩個區域的:一個是資料區,存放檔案資料;另一個是inode區,存放inode所包含的資訊。每個inode節點的大小,一般是128位元組或256位元組。檢視每個硬碟分區的inode總數和已經使用的數量,可以使用df -i指令。由于每個檔案都必須有一個inode,如果一個日志機器上,日志檔案小而且數量太多,是有可能發生作業系統inode用完了即是inode區磁盤滿了,但是我們使用的資料區硬碟還未存滿的情況。這時,就無法在硬碟上建立新檔案。是以在日志列印規範上是要避免産生大量的小日志檔案的。

vivo大資料日志采集Agent設計實踐

4.3 日志内容的讀取

發現并且能有效監聽日志檔案後,我們應該如何去讀取這個日志檔案中實時追加的日志内容呢?日志内容的讀取,我們期望從日志檔案中把每一行的日志内容逐行讀取出來,每一行以\n或者\r為分隔符。很顯然,我們不能直接簡單采用InputStreamReader去讀取,因為Reader隻能按照字元從頭到尾讀取整個日志檔案,不适合讀取實時追加日志内容的情況;最合适的選擇應該是使用RandomAccessFile。RandomAccessFile它為代碼開發者提供了一個可供設定的指針,通過指針開發者可以通路檔案的随機位置,參考下圖:

vivo大資料日志采集Agent設計實踐

通過這種方式,當某一時刻出現線程讀取到檔案末尾時,隻需要記錄目前的位置,線程就進入等待狀态,直到有新的日志内容寫入後,線程又重新啟動,啟動後可以接着上次的尾部往下讀取,代碼參考如下。另外,在程序挂或者當機恢複後,也會用到RandomAccessFile來從指定點位開始讀取,不需要從整個檔案頭部重新讀取。關于斷點續傳的能力後文會提到。

RandomAccessFile raf = new RandomAccessFile(file, "r");
byte[] buffer;
private void readFile() {
    if ((raf.length() - raf.getFilePointer()) < BUFFER_SIZE) {
        buffer = new byte[(int) (raf.length() - raf.getFilePointer())];
    } else {
        buffer = new byte[BUFFER_SIZE];
    }
    raf.read(buffer, 0, buffer.length);
}           

4.4 實作斷點續傳

機器當機、Java程序OOM重新開機、Agent更新重新開機等這些是常有的事,那麼如何在這些情況下保障采集資料的正确呢?這個問題主要考慮的是采集Agent斷點續傳的能力。一般的,我們在采集過程中需要記錄目前的采集點位(采集點位,即RandomAccessFile中最後的指針指向的位置,一個整型數值),當Agent把對應緩沖區的資料成功發送到kafka後,此時可以先把最新點位的數值更新到記憶體,并且通過一個定時任務(預設是3s)持久化記憶體中的采集點位數值到本地的磁盤的點位檔案中。這樣,當出現程序停止,重新啟動時,加載本次磁盤檔案中的采集點位,并使用RandomAccessFile移動到對應的點位,實作了從上一次停止的點位繼續往下采集的能力,Agent可以恢複到原有的狀态,進而實作了斷點續傳,有效規避重複采集或者漏采集的風險。

Agent針對的每一個采集任務會有一個對應的點位檔案,一個Agent如果有多個采集任務,将會對應多個點位檔案。一個點位檔案存儲的内容格式為JSON數組(如下圖所示)。其中file表示任務所采集的檔案的名字,inode即檔案的inode,pos即position的縮小,表示點位的數值;

[
    {
        "file": "/home/sample/logs/bees-agent.log",
        "inode": 2235528,
        "pos": 621,
        "sign": "cb8730c1d4a71adc4e5b48931db528e30a5b5c1e99a900ee13e1fe5f935664f1"
    }
]           

4.5 實時資料發送

前面主要介紹了,日志檔案的實時的發現、實時的日志内容變更監聽、日志内容的讀取等設計方案,接下來介紹Agent的資料發送。

最簡單的模型是,Agent通過Kafka Client把資料直接發送到Kafka分布式消息中間件,這也是一種簡潔可行的方案。實際上在Bees的采集鍊路架構中,在Agent與Kafka的資料鍊路中我們增加了一個"元件bees-bus“(如下圖所示)。

bees-bus元件主要起到彙聚資料的作用,類似于Flume在采集鍊路中聚合的角色。Agent基于Netty開源架構實作NettyRpcClient與Bus之間通訊實作資料發送。網絡傳輸部分展開講内容較多,非本文章重點就此帶過(具體可參考Flume NettyAvroRpcClient實作)。

這裡稍微補充下,我們引入bees-bus的目的主要有以下幾個:

  1. 收斂來自于Agent過多的網絡連接配接數,避免所有Agent直連Kafka broker對其造成較大的壓力;
  2. 資料彙聚到Bus後,Bus具備流量多路輸出的能力,可以實作跨機房Kafka資料容災;
  3. 在遇到流量陡增的情況下, 會導緻topic分區所在broker機器磁盤IO繁忙進而導緻資料反壓到用戶端, 由于kafka副本遷移比較耗時是以出現問題後恢複較慢,Bus可以起到一層緩沖層的作用。
vivo大資料日志采集Agent設計實踐

4.6 離線采集能力

除了上面常見的實時日志采集的場景外(一般是日志采集到kafka這類消息中間件),Bees采集還有一個離線日志采集的場景。所謂離線日志采集,一般是指把日志檔案是采集到HDFS下(參考下圖)。

這些日志資料是用于下遊的Hive離線數倉建設、離線報表分析使用。該場景資料時效性沒有那麼強,一般是按天為機關使用資料(我們常說的T+1資料),是以日志資料采集無需像實時日志采集一樣,實時的一行一行的采集。離線采集一般可以按照固定時間一個批次采集。我們預設是每隔一小時定時采集上個小時産生的一個完整的小時日志檔案,比如在21點的05分,采集Agent則開始采集上個小時産生的日志檔案(access.2021110820.log),該檔案儲存了20點内産生的完整的(20:00~20:59)日志内容。

實作離線的采集能力,我們的Agent通過內建HDFS Client的基本能力來實作,HDFS Client中使用 FSDataOutputStream 可以快速的完成一個檔案PUT到HDFS的目錄下。

尤其要關注的一點是,離線采集需要特别的增加了一個限流采集的能力。由于離線采集的特點是,在整點左右的時刻,所有的機器上的Agent會幾乎同時全量開啟采集,如果日志量大、采集速度過快,可能會造成該時刻公司網絡帶寬被快速占用飙升,超出全網帶寬上限,進一步會影響其他業務的正常服務,引發故障;還有一個需要關注的就是離線采集整點時刻對機器磁盤資源的需求是很大,通過限流采集,可以有效削平對磁盤資源的整點峰值,避免影響其他服務。

4.7 日志檔案清理政策

業務日志源源不斷的産生落到機器的磁盤上,單個小時的日志檔案大小,小的可能是幾十MB,大的可以是幾十GB,磁盤很有可能在幾小時内被占滿,導緻新的日志無法寫入造成日志丢失,另一方面可能導緻更緻命的問題,linux 作業系統報 “No space left on device 異常",引發其他程序的各種故障;是以機器上的日志檔案需要有一個清理的政策。

我們采用的政策是,所有的機器都預設啟動了一個shell的日志清理腳本,定期檢查固定目錄下的日志檔案,規定日志檔案的生命周期為6小時,一旦發現日志檔案是6小時以前的檔案,則會對其進行删除(執行 rm 指令)。

因為日志檔案的删除,不是由日志采集Agent自身發起和執行的,那麼可能出現”采集速度跟不上删除速度(采集落後6小時)“的情況。比如日志檔案還在采集,但是删除腳本已經檢測到該檔案生命周期已達6小時準備對其進行删除;這種情況,我們隻需要做好一點,保證采集Agent對該日志檔案的讀取句柄是正常打開的,這樣的話,即使日志清理程序對該檔案執行了rm操作(執行rm後隻是将該檔案從檔案系統的目錄結構上解除連結 unlink,實際檔案還未從磁盤徹底删除),采集Agent持續打開的句柄,依然能正常采集完此檔案;這種"采集速度跟不上删除速度"是不能長時間存在,也有磁盤滿的風險,需要通過告警識别出來,根本上來說,需要通過負載均衡或者降低日志量的方法,來減少單機器日志長時間采集不過來的情況。

4.8 系統資源消耗與控制

Agent采集程序是随着業務程序一起部署在一個機器上的,共同使用業務機器的資源(CPU、記憶體、磁盤、網絡),是以在設計時,要考慮控制好Agent采集程序對機器資源的消耗,同時要做好對Agent程序對機器資源消耗的監控。一方面保障業務有穩定的資源可以正常運作;另外可以保障Agent自身程序正常運作。通常我們可以采用以下方案:

1. 針對CPU的消耗控制。

我們可以較友善采用Linux系統層面的CPU隔離的方案來控制,比如TaskSet;通過TaskSet指令,我們可以在采集程序啟動時,設定采集程序綁定在某個限定的CPU核心上面(程序綁核,即設定程序與CPU親和性,設定以後Linux排程器就會讓這個程序/線程隻在所綁定的核上面去運作);這樣的設定之後,可以保障采集程序與業務程序在CPU的使用上面互相不影響。

2. 針對記憶體的消耗控制。

由于采集Agent采用java語言開發基于JVM運作,是以我們可以通過JVM的堆參數配置即可控制;bees-agent一般預設配置512MB,理論上最低值可以是64MB,可以根據實際機器資源情況和采集日志檔案大小來配置;事實上,Agent的記憶體占用相對穩定,記憶體消耗方面的風險較小。

3.針對磁盤的消耗控制。

由于采集Agent是一個IO密集型程序,是以磁盤IO的負載是我們需要重點保障好的;在系統層面沒有成熟的磁盤IO的隔離方案,是以隻能在應用層來實作。我們需要清楚程序所在磁盤的基準性能情況,然後在這個基礎上,通過Agent自身的限速采集能力,設定采集程序的峰值的采集速率(比如:3MB/s、5MB/s);除此之外,還需要做好磁盤IO負載的基礎監控與告警、采集Agent采集速率大小的監控與告警,通過這些監控告警與值班分析進一步保障磁盤IO資源。

4.針對網絡的消耗控制。

這裡說的網絡,重點要關注是跨機房帶寬上限。避免同一時刻,大批量的Agent日志采集導緻跨機房的帶寬到達了上限,引發業務故障。是以,針對網絡帶寬的使用也需要有監控與告警,相關監控資料上報到平台彙總計算,平台通過智能計算後給Agent下發一個合理的采集速率。

4.9 自身日志監控

為了更好的監控線上所有的Agent的情況,能夠友善地檢視這些Agent程序自身的log4j日志是很有必要的。為了達成這一目的,我們把Agent自身産生的日志采集設計成一個普通的日志采集任務,就是說,采集Agent程序自身,自己采集自己産生的日志,于是就可以把所有Agent的日志通過Agent采集彙聚到下遊Kafka,再到Elasticsearch存儲引擎,最後通過Kibana或其他的日志可視化平台可以檢視。

vivo大資料日志采集Agent設計實踐

4.10 平台化管理

目前的生産環境Agent執行個體數量已經好幾萬,采集任務數量有上萬個。為了對這些分散的、資料量多的Agent進行有效的集中的運維和管理,我們設計了一個可視化的平台,管理平台具備以下Agent控制能力:Agent 的現網版本檢視,Agent存活心跳管理,Agent采集任務下發、啟動、停止管理,Agent采集限速管理等;需要注意的是,Agent與平台的通訊方式,我們設計采用簡單的HTTP通訊方式,即Agent以定時心跳的方式(預設5分鐘)向平台發起HTTP請求,HTTP請求體中會包含Agent自身資訊,比如idc、ip、hostname、目前采集任務資訊等,而HTTP傳回體的内容裡會包含平台向Agent下發的任務資訊,比如哪個任務啟動、哪個任務停止、任務的具體參數變更等。

vivo大資料日志采集Agent設計實踐

五、與開源能力對比

bees-agent與flume-agent對比

  1. 記憶體需求大大降低。bees-agent 采用無 Channel 設計,大大節省記憶體開銷,每個 Agent 啟動 ,JVM 堆棧最低理論值可以設定為64MB;
  2. 實時性更好。bees-agent 采用Linux inotify事件機制,相比 Flume Agent 輪詢機制,采集資料的時效性可以在1s以内;
  3. 日志檔案的唯一辨別,bees-agent 使用inode+檔案簽名,更準确,不會出現日志檔案誤采重采;
  4. 使用者資源隔離。bees-agent 不同 Topic 的日志采集任務,采用不同的線程隔離采集,互相無影響;
  5. 真正的優雅退出。bees-agent 在正常采集過程中,随時使用平台的"停止指令"讓 Agent 優雅退出,不會出現無法退出的尴尬情況,也能保證日志無任何丢失;
  6. 更豐富的名額資料。bees-agent 包括采集速率、采集總進度,還有 機器資訊、JVM 堆情況、類數量、JVM GC次數等;
  7. 更豐富的定制化能力。bees-agent 具備關鍵字比對采集能力、日志格式化能力、平台化管理的能力等;
vivo大資料日志采集Agent設計實踐

六、總結

前文介紹了vivo日志采集Agent在設計過程中的一些核心技術點:包括日志檔案的發現與監聽、日志檔案的唯一辨別符設計、日志檔案的實時采集與離線采集的架構設計、日志檔案的清理政策、采集程序對系統資源的消耗控制、平台化管理的思路等,這些關鍵的設計思路覆寫了自研采集agent大部分的核心功能,同時也覆寫了其中的難點痛點,能讓後續的開發環節更加暢通。當然,還有一些高階的采集能力未涵蓋本文介紹在内,比如"如何做好日志采集資料的完整性對賬","資料庫類型的場景的采集設計"等,大家可以繼續探索解決方案。

從2019年起,vivo大資料業務的日志采集場景就是由Bees資料采集服務支撐。bees-agent在生産環境持續服務,至今已有3年多的穩定運作的記錄,有數萬個bees-agent執行個體正在運作,同時線上支撐數萬個日志檔案的采集,每天采集PB級别的日志量。實踐證明,bees-agent的穩定行、健壯性、豐富的功能、性能與合理的資源情況,都符合最開始設計的預期,本文的設計思路的也一再被證明行之有效。

作者:Qiu Sidi

來源:微信公衆号:vivo網際網路技術

出處:https://mp.weixin.qq.com/s/Wya9TLEZpVkypiAmyZ_V_Q

繼續閱讀