天天看點

直擊痛點,詳解 K8s 日志采集最佳實踐Kubernetes 日志采集難點采集方式:主動 or 被動日志輸出:Stdout or 檔案CICD內建:Logging OperatorKubernetes 日志采集方案實踐 1 - 中小型叢集實踐 2 - 大型叢集有一個阿裡團隊需要你!

直擊痛點,詳解 K8s 日志采集最佳實踐Kubernetes 日志采集難點采集方式:主動 or 被動日志輸出:Stdout or 檔案CICD內建:Logging OperatorKubernetes 日志采集方案實踐 1 - 中小型叢集實踐 2 - 大型叢集有一個阿裡團隊需要你!

作者 | 元乙  阿裡雲存儲服務技術專家

導讀:

上一篇文章

主要介紹 Kubernetes 日志輸出的一些注意事項,日志輸出最終的目的還是做統一的采集和分析。在 Kubernetes 中,日志采集和普通虛拟機的方式有很大不同,相對實作難度和部署代價也略大,但若使用恰當則比傳統方式自動化程度更高、運維代價更低。本文為日志系列文章的第 4 篇。

第一篇:

《6 個 K8s 日志系統建設中的典型問題,你遇到過幾個?》

第二篇:

《一文看懂 K8s 日志系統設計和實踐》

第三篇:

《9 個技巧,解決 K8s 中的日志輸出問題》

Kubernetes 日志采集難點

在 Kubernetes 中,日志采集相比傳統虛拟機、實體機方式要複雜很多,最根本的原因是 Kubernetes 把底層異常屏蔽,提供更加細粒度的資源排程,向上提供穩定、動态的環境。是以日志采集面對的是更加豐富、動态的環境,需要考慮的點也更加的多。

例如:

  • 對于運作時間很短的 Job 類應用,從啟動到停止隻有幾秒的時間,如何保證日志采集的實時性能夠跟上而且資料不丢?
  • K8s 一般推薦使用大規格節點,每個節點可以運作 10-100+ 的容器,如何在資源消耗盡可能低的情況下采集 100+ 的容器?
  • 在 K8s 中,應用都以 yaml 的方式部署,而日志采集還是以手工的配置檔案形式為主,如何能夠讓日志采集以 K8s 的方式進行部署?
Kubernetes 傳統方式
日志種類 檔案、stdout、主控端檔案、journal 檔案、journal
日志源 業務容器、系統元件、主控端 業務、主控端
采集方式 Agent(Sidecar、DaemonSet)、直寫(DockerEngine、業務) Agent、直寫
單機應用數 10-100 1-10
應用動态性
節點動态性
采集部署方式 手動、Yaml 手動、自定義

采集方式:主動 or 被動

日志的采集方式分為被動采集和主動推送兩種,在 K8s 中,被動采集一般分為 Sidecar 和 DaemonSet 兩種方式,主動推送有 DockerEngine 推送和業務直寫兩種方式。

  • DockerEngine 本身具有 LogDriver 功能,可通過配置不同的 LogDriver 将容器的 stdout 通過 DockerEngine 寫入到遠端存儲,以此達到日志采集的目的。這種方式的可定制化、靈活性、資源隔離性都很低,一般不建議在生産環境中使用;
  • 業務直寫是在應用中內建日志采集的 SDK,通過 SDK 直接将日志發送到服務端。這種方式省去了落盤采集的邏輯,也不需要額外部署 Agent,對于系統的資源消耗最低,但由于業務和日志 SDK 強綁定,整體靈活性很低,一般隻有日志量極大的場景中使用;
  • DaemonSet 方式在每個 node 節點上隻運作一個日志 agent,采集這個節點上所有的日志。DaemonSet 相對資源占用要小很多,但擴充性、租戶隔離性受限,比較适用于功能單一或業務不是很多的叢集;
  • Sidecar 方式為每個 POD 單獨部署日志 agent,這個 agent 隻負責一個業務應用的日志采集。Sidecar 相對資源占用較多,但靈活性以及多租戶隔離性較強,建議大型的 K8s 叢集或作為 PaaS 平台為多個業務方服務的叢集使用該方式。
直擊痛點,詳解 K8s 日志采集最佳實踐Kubernetes 日志采集難點采集方式:主動 or 被動日志輸出:Stdout or 檔案CICD內建:Logging OperatorKubernetes 日志采集方案實踐 1 - 中小型叢集實踐 2 - 大型叢集有一個阿裡團隊需要你!

總結下來:

  • DockerEngine 直寫一般不推薦;
  • 業務直寫推薦在日志量極大的場景中使用;
  • DaemonSet 一般在中小型叢集中使用;
  • Sidecar 推薦在超大型的叢集中使用。

詳細的各種采集方式對比如下:

DockerEngine 業務直寫 DaemonSet方式 Sidecar方式
采集日志類型 标準輸出 業務日志 标準輸出+部分檔案 檔案
部署運維 低,原生支援 低,隻需維護好配置檔案即可 一般,需維護DaemonSet 較高,每個需要采集日志的POD都需要部署sidecar容器
日志分類存儲 無法實作 業務獨立配置 一般,可通過容器/路徑等映射 每個POD可單獨配置,靈活性高
多租戶隔離 弱,日志直寫會和業務邏輯競争資源 一般,隻能通過配置間隔離 強,通過容器進行隔離,可單獨配置設定資源
支援叢集規模 本地存儲無限制,若使用syslog、fluentd會有單點限制 無限制 取決于配置數
資源占用 低,docker
engine提供 整體最低,省去采集開銷 較低,每個節點運作一個容器 較高,每個POD運作一個容器
查詢便捷性 低,隻能grep原始日志 高,可根據業務特點進行定制 較高,可進行自定義的查詢、統計
可定制性 高,可自由擴充 高,每個POD單獨配置
耦合度 高,與DockerEngine強綁定,修改需要重新開機DockerEngine 高,采集子產品修改/更新需要重新釋出業務 低,Agent可獨立更新 一般,預設采集Agent更新對應Sidecar業務也會重新開機(有一些擴充包可以支援Sidecar熱更新)
适用場景 測試、POC等非生産場景 對性能要求極高的場景 日志分類明确、功能較單一的叢集 大型、混合型、PAAS型叢集

日志輸出:Stdout or 檔案

和虛拟機/實體機不同,K8s 的容器提供标準輸出和檔案兩種方式。在容器中,标準輸出将日志直接輸出到 stdout 或 stderr,而 DockerEngine 接管 stdout 和 stderr 檔案描述符,将日志接收後按照 DockerEngine 配置的 LogDriver 規則進行處理;日志列印到檔案的方式和虛拟機/實體機基本類似,隻是日志可以使用不同的存儲方式,例如預設存儲、EmptyDir、HostVolume、NFS 等。

雖然使用 Stdout 列印日志是 Docker 官方推薦的方式,但大家需要注意:這個推薦是基于容器隻作為簡單應用的場景,實際的業務場景中我們還是建議大家盡可能使用檔案的方式,主要的原因有以下幾點:

  • Stdout 性能問題,從應用輸出 stdout 到服務端,中間會經過好幾個流程(例如普遍使用的 JSON LogDriver):應用 stdout -> DockerEngine -> LogDriver -> 序列化成 JSON -> 儲存到檔案 -> Agent 采集檔案 -> 解析 JSON -> 上傳服務端。整個流程相比檔案的額外開銷要多很多,在壓測時,每秒 10 萬行日志輸出就會額外占用 DockerEngine 1 個 CPU 核;
  • Stdout 不支援分類,即所有的輸出都混在一個流中,無法像檔案一樣分類輸出,通常一個應用中有 AccessLog、ErrorLog、InterfaceLog(調用外部接口的日志)、TraceLog 等,而這些日志的格式、用途不一,如果混在同一個流中将很難采集和分析;
  • Stdout 隻支援容器的主程式輸出,如果是 daemon/fork 方式運作的程式将無法使用 stdout;
  • 檔案的 Dump 方式支援各種政策,例如同步/異步寫入、緩存大小、檔案輪轉政策、壓縮政策、清除政策等,相對更加靈活。

是以我們建議線上應用使用檔案的方式輸出日志,Stdout 隻在功能單一的應用或一些 K8s 系統/運維元件中使用。

CICD內建:Logging Operator

直擊痛點,詳解 K8s 日志采集最佳實踐Kubernetes 日志采集難點采集方式:主動 or 被動日志輸出:Stdout or 檔案CICD內建:Logging OperatorKubernetes 日志采集方案實踐 1 - 中小型叢集實踐 2 - 大型叢集有一個阿裡團隊需要你!

Kubernetes 提供了标準化的業務部署方式,可以通過 yaml(K8s API)來聲明路由規則、暴露服務、挂載存儲、運作業務、定義縮擴容規則等,是以 Kubernetes 很容易和 CICD 系統內建。而日志采集也是運維監控過程中的重要部分,業務上線後的所有日志都要進行實時的收集。

原始的方式是在釋出之後手動去部署日志采集的邏輯,這種方式需要手工幹預,違背 CICD 自動化的宗旨;為了實作自動化,有人開始基于日志采集的 API/SDK 包裝一個自動部署的服務,在釋出後通過 CICD 的 webhook 觸發調用,但這種方式的開發代價很高。

在 Kubernetes 中,日志最标準的內建方式是以一個新資源注冊到 Kubernetes 系統中,以 Operator(CRD)的方式來進行管理和維護。在這種方式下,CICD 系統不需要額外的開發,隻需在部署到 Kubernetes 系統時附加上日志相關的配置即可實作。

Kubernetes 日志采集方案

直擊痛點,詳解 K8s 日志采集最佳實踐Kubernetes 日志采集難點采集方式:主動 or 被動日志輸出:Stdout or 檔案CICD內建:Logging OperatorKubernetes 日志采集方案實踐 1 - 中小型叢集實踐 2 - 大型叢集有一個阿裡團隊需要你!

早在 Kubernetes 出現之前,我們就開始為容器環境開發日志采集方案,随着 K8s 的逐漸穩定,我們開始将很多業務遷移到 K8s 平台上,是以也基于之前的基礎專門開發了一套 K8s 上的日志采集方案。主要具備的功能有:

  • 支援各類資料的實時采集,包括容器檔案、容器 Stdout、主控端檔案、Journal、Event 等;
  • 支援多種采集部署方式,包括 DaemonSet、Sidecar、DockerEngine LogDriver 等;
  • 支援對日志資料進行富化,包括附加 Namespace、Pod、Container、Image、Node 等資訊;
  • 穩定、高可靠,基于阿裡自研的 Logtail 采集 Agent 實作,目前全網已有幾百萬的部署執行個體;
  • 基于 CRD 進行擴充,可使用 Kubernetes 部署釋出的方式來部署日志采集規則,與 CICD 完美內建。

安裝日志采集元件

目前這套采集方案已經對外開放,我們提供了一個 Helm 安裝包,其中包括 Logtail 的 DaemonSet、AliyunlogConfig 的 CRD 聲明以及 CRD Controller,安裝之後就能直接使用 DaemonSet 采集以及 CRD 配置了。安裝方式如下:

  1. 阿裡雲 Kubernetes 叢集在開通的時候可以勾選安裝,這樣在叢集建立的時候會自動安裝上述元件。如果開通的時候沒有安裝,則可以 手動安裝
  2. 如果是自建的 Kubernetes,無論是在阿裡雲上自建還是在其他雲或者是線下,也可以使用這樣采集方案,具體安裝方式參考 自建 Kubernetes 安裝

安裝好上述元件之後,Logtail 和對應的 Controller 就會運作在叢集中,但預設這些元件并不會采集任何日志,需要配置日志采集規則來采集指定 Pod 的各類日志。

采集規則配置:環境變量 or CRD

除了在日志服務控制台上手動配置之外,對于 Kubernetes 還額外支援兩種配置方式:環境變量和 CRD。

  • 環境變量是自 swarm 時代一直使用的配置方式,隻需要在想要采集的容器環境變量上聲明需要采集的資料位址即可,Logtail 會自動将這些資料采集到服務端;

這種方式部署簡單,學習成本低,很容易上手;但能夠支援的配置規則很少,很多進階配置(例如解析方式、過濾方式、黑白名單等)都不支援,而且這種聲明的方式不支援修改/删除,每次修改其實都是建立 1 個新的采集配置,曆史的采集配置需要手動清理,否則會造成資源浪費。

直擊痛點,詳解 K8s 日志采集最佳實踐Kubernetes 日志采集難點采集方式:主動 or 被動日志輸出:Stdout or 檔案CICD內建:Logging OperatorKubernetes 日志采集方案實踐 1 - 中小型叢集實踐 2 - 大型叢集有一個阿裡團隊需要你!
  • CRD 配置方式 是非常符合 Kubernetes 官方推薦的标準擴充方式,讓采集配置以 K8s 資源的方式進行管理,通過向 Kubernetes 部署 AliyunLogConfig 這個特殊的 CRD 資源來聲明需要采集的資料。

例如下面的示例就是部署一個容器标準輸出的采集,其中定義需要 Stdout 和 Stderr 都采集,并且排除環境變量中包含 COLLEXT_STDOUT_FLAG:false 的容器。

基于 CRD 的配置方式以 Kubernetes 标準擴充資源的方式進行管理,支援配置的增删改查完整語義,而且支援各種進階配置,是我們極其推薦的采集配置方式。

直擊痛點,詳解 K8s 日志采集最佳實踐Kubernetes 日志采集難點采集方式:主動 or 被動日志輸出:Stdout or 檔案CICD內建:Logging OperatorKubernetes 日志采集方案實踐 1 - 中小型叢集實踐 2 - 大型叢集有一個阿裡團隊需要你!

采集規則推薦的配置方式

直擊痛點,詳解 K8s 日志采集最佳實踐Kubernetes 日志采集難點采集方式:主動 or 被動日志輸出:Stdout or 檔案CICD內建:Logging OperatorKubernetes 日志采集方案實踐 1 - 中小型叢集實踐 2 - 大型叢集有一個阿裡團隊需要你!

實際應用場景中,一般都是使用 DaemonSet 或 DaemonSet 與 Sidecar 混用方式,DaemonSet 的優勢是資源使用率高,但有一個問題是 DaemonSet 的所有 Logtail 都共享全局配置,而單一的 Logtail 有配置支撐的上限,是以無法支撐應用數比較多的叢集。

上述是我們給出的推薦配置方式,核心的思想是:

  • 一個配置盡可能多的采集同類資料,減少配置數,降低 DaemonSet 壓力;
  • 核心的應用采集要給予充分的資源,可以使用 Sidecar 方式;
  • 配置方式盡可能使用 CRD 方式;
  • Sidecar 由于每個 Logtail 是單獨的配置,是以沒有配置數的限制,這種比較适合于超大型的叢集使用。

實踐 1 - 中小型叢集

直擊痛點,詳解 K8s 日志采集最佳實踐Kubernetes 日志采集難點采集方式:主動 or 被動日志輸出:Stdout or 檔案CICD內建:Logging OperatorKubernetes 日志采集方案實踐 1 - 中小型叢集實踐 2 - 大型叢集有一個阿裡團隊需要你!

絕大部分 Kubernetes 叢集都屬于中小型的,對于中小型沒有明确的定義,一般應用數在 500 以内,節點規模 1000 以内,沒有職能明确的 Kubernetes 平台運維。這種場景應用數不會特别多,DaemonSet 可以支撐所有的采集配置:

  • 絕大部分業務應用的資料使用 DaemonSet 采集方式;
  • 核心應用(對于采集可靠性要求比較高,例如訂單/交易系統)使用 Sidecar 方式單獨采集。

實踐 2 - 大型叢集

直擊痛點,詳解 K8s 日志采集最佳實踐Kubernetes 日志采集難點采集方式:主動 or 被動日志輸出:Stdout or 檔案CICD內建:Logging OperatorKubernetes 日志采集方案實踐 1 - 中小型叢集實踐 2 - 大型叢集有一個阿裡團隊需要你!

對于一些用作 PaaS 平台的大型/超大型叢集,一般業務在 1000 以上,節點規模也在 1000 以上,有專門的 Kubernetes 平台運維人員。這種場景下應用數沒有限制,DaemonSet 無法支援,是以必須使用 Sidecar 方式,整體規劃如下:

  • Kubernetes 平台本身的系統元件日志、核心日志相對種類固定,這部分日志使用 DaemonSet 采集,主要為平台的運維人員提供服務;
  • 各個業務的日志使用 Sidecar 方式采集,每個業務可以獨立設定 Sidecar 的采集目的位址,為業務的 DevOps 人員提供足夠的靈活性。

有一個阿裡團隊需要你!

雲原生應用平台邀 Kubernetes/容器/ Serverless/應用傳遞技術領域專家(P7-P8)加盟。

  • 技術要求:Go/Rust/Java/C++,Linux,分布式系統;
  • 工作年限:P7 三年起,P8 五年起,具體看實際能力;
  • 工作地點:國内(北京 / 杭州 / 深圳);海外(舊金山灣區 / 西雅圖)。

履歷投遞:xining.zj AT alibaba-inc.com。

直擊痛點,詳解 K8s 日志采集最佳實踐Kubernetes 日志采集難點采集方式:主動 or 被動日志輸出:Stdout or 檔案CICD內建:Logging OperatorKubernetes 日志采集方案實踐 1 - 中小型叢集實踐 2 - 大型叢集有一個阿裡團隊需要你!
阿裡巴巴雲原生 關注微服務、Serverless、容器、Service Mesh 等技術領域、聚焦雲原生流行技術趨勢、雲原生大規模的落地實踐,做最懂雲原生開發者的技術圈。”

繼續閱讀