Kubernetes探針踩坑記

2021-11-08 08:54:05

最近一兩個月生産k8s叢集頻繁出現短時503 service temporarily unavailable，還不能主動複現，相當郁悶，壓力山大。

http 5xx響應狀态碼用于定義服務端錯誤。 500 internal server error：所請求的伺服器遇到意外的情況并阻止其執行請求，通常針對單個請求，整個站點有時還是提供服務。 502 bad gateway error 暗示連接配接鍊路中某個伺服器下線或者不可用； 503 service unavailable 意味着托管您的應用程式的實際web伺服器上存在問題。

基本上每隔2-3天出現一次，每次2-3分鐘，此時整站503；

因為不能主動複現，8月26日排查相應時間段的efk日志: <code>impala連接配接問題</code>，大資料運維同僚排查到webapp發起impala的請求與impala叢集時鐘未對齊，導緻webapp impalaodbc driver連不上impala叢集；

進入k8s叢集節點，确實部分節點的時鐘對齊服務未啟動，不定時出現比中原標準時間慢2,3分鐘的情況，這個确實可以解釋時間差導緻的impala連接配接認證失敗。

8月26日同步所有k8s節點的時鐘，之後接近一周，并未出現問題；

9月3日又出現一次短時503無服務，efk日志顯示依舊是<code>impala連接配接問題</code>，此處大資料同僚未能定位具體原因，暫時定義為偶發/抖動？

故障現場每次隻有impala連接配接問題，我也搞不懂impala連接配接問題竟然會導緻webapp service下線。

我們的webapp兼具tob和toc業務，站點強依賴mongodb、弱依賴于impala：impala即使連不上，隻是不能查，站點sso+訂單相關的寫入操作應該還可用。

回想起前幾天看到的k8s探針，糟糕，我們的就緒探針好像探測了impala

強烈推測:就緒探針3次探測impala失敗, pod将會被标記為unready, 該pod将從webapp服務負載均衡器移除, 不再配置設定流量，導緻nginx無實際意義的後端服務，站點503。

迅速找一個beta環境，斷開impala連接配接，驗證猜想。

bugfix不是我正向推斷出來的，而是純靠經驗推演出來的，倒不是有明确推斷思路，也算給大家提前踩坑了。

docker的健康檢查隻能探測，kubernetes存活、就緒探針不僅有探測，還有決策能力。

這裡我們的k8s就緒探測使用政策出現了問題：

探測到webapp弱依賴impala有問題，就下線了整個webapp服務，應該隻探測強依賴，強依賴有問題，才表明容器未就緒，這也是就緒探針的初衷。

強烈建議根據webapp結構合理設定探針和探針參數，避免不切實際的健康檢查失敗導緻的頻繁重新開機或服務下線。

硬核技能k8s初體驗

docker-healthcheck指令探測asp.net core容器健康狀态

kubernetes liveness and readiness probes

Kubernetes探針踩坑記

繼續閱讀

關于Gradle配置的小結

Java小案例——随機數猜測随機數猜測

nginx location中斜線的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的簡單使用

neo4j之cypher使用文檔

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method