proxmox叢集節點崩潰處理

2018-11-30 01:01:26

問題描述

在現有叢集加入一個實體節點，接着再此節點建立ceph螢幕、建立OSD。從主控端系統執行ceph osd tree檢視狀态，建立起來的幾個OSD狀态都正常（up），從proxmox管理界面看也是這樣。

突然不知道什麼原因，剛加入的節點就突然不能從叢集中失效了。

再進主控端系統查OSD狀态，居然自己從up變成down。新增節點沒資料，于是就試試重新開機，看能不能正常。重新開機以後，網絡能通，ssh不能連接配接，web管理界面也不能通路。接下來，需要先把故障節點從叢集中撤離出來，恢複以後，再加入叢集。

從叢集中删除故障節點

按操作順序分兩個步驟：從叢集中删除故障ceph和從叢集中删除實體節點。

ü 從叢集中删除故障ceph

1. 登入叢集任意實體正常節點系統，執行如下指令檢視ceph osd狀态：

root@pve48:~# ceph osd tree

ID CLASS WEIGHT TYPE NAME STATUS REWEIGHT PRI-AFF

-1 18.00357 root default

-3 4.91006 host pve48

0 hdd 1.63669 osd.0 up 1.00000 1.00000

1 hdd 1.63669 osd.1 up 1.00000 1.00000

2 hdd 1.63669 osd.2 up 1.00000 1.00000

-5 4.91006 host pve49

3 hdd 1.63669 osd.3 up 1.00000 1.00000

4 hdd 1.63669 osd.4 up 1.00000 1.00000

5 hdd 1.63669 osd.5 up 1.00000 1.00000

-7 4.91006 host pve50

6 hdd 1.63669 osd.6 up 1.00000 1.00000

7 hdd 1.63669 osd.7 up 1.00000 1.00000

8 hdd 1.63669 osd.8 up 1.00000 1.00000

-9 3.27338 host pve51

9 hdd 1.63669 osd.9 down 0 1.00000

10 hdd 1.63669 osd.10 down 0 1.00000

從輸出可知實體節點pve51的兩個OSD有問題，需要删除。

2. 離線有問題的ceph osd,執行的操作如下：

root@pve48:~# ceph osd out osd.9

osd.9 is already out.

root@pve48:~# ceph osd out osd.10

osd.10 is already out.

操作時要仔細，别把正常的osd離線了。

3. 删除已經離線osd認證資訊，執行的操作如下：

root@pve48:~# ceph auth del osd.9

updated

root@pve48:~# ceph auth del osd.10

4. 徹底删除故障osd，操作如下：

root@pve48:~# ceph osd rm 9

removed osd.9

root@pve48:~# ceph osd rm 10

removed osd.10

注意：此操作ceph最後一列參數與前邊的不同，是純數字格式！！！

5. 檢視叢集osd狀态，操作如下：

-1 18.00357 root default

2 hdd 1.63669 osd.2 up 1.00000 1.00000

-9 3.27338 host pve51

9 hdd 1.63669 osd.9 DNE 0

10 hdd 1.63669 osd.10 DNE 0

操作完成後，故障節點的osd狀态從down變成了DNE

6. 删除故障節點的ceph磁盤，操作如下：

root@pve48:~# ceph osd crush rm osd.9

removed item id 9 name 'osd.9' from crush map

root@pve48:~# ceph osd crush rm osd.10

removed item id 10 name 'osd.10' from crush map

7. 從ceph叢集中删除實體節點，操作如下：

root@pve48:~# ceph osd crush rm pve51

removed item id -9 name 'pve51' from crush map

8. 執行指令 ceph osd tree 檢視狀态，看是否把故障節點從ceph叢集清理出去。

ü 從叢集中删除故障節點

Ø 叢集上的操作

登入叢集中任意正常節點，執行如下指令進行驅逐操作：

root@pve48:~# pvecm delnode pve51

Killing node 4

proxmox叢集節點崩潰處理

繼續閱讀

如何建構私有雲并打造混合雲生态？

轉：什麼是超融合？超融合有什麼作用，超融合的概念.

超融合與私有雲差別及聯系：基于超融合建構私有雲成主流方案

Nutanix總裁：超融合推動雲計算發展客戶需要定制化的雲服務

oVirt+SSAN超融合架構

基于超融合建構關鍵業務資料庫新型系統加強方案

超融合在銀行業中的應用場景--雲宏

CIO訪談實錄丨渤海人壽攜手SmartX超融合大幅提升開發測試效率

超融合“内卷”時代，什麼才是市場競争的王道？超融合≈私有雲？産品會“卷”到新高度？可複制能力将是市場勝負手

Proxmox 的 LXC上跑 Docker

資料中心的行業盛宴，一場圈内人的深度交流--12月8日将開啟的英特爾資料中心建構者峰會展望...

Virtink：更輕量的 Kubernetes 原生虛拟化管理引擎

基于Debian OS部署Proxmox VE 6.3

Proxmox VE (PVE) 6.4.1虛拟化踩坑記錄前言：配置：問題彙總：

Proxmox VE(PVE)關閉訂閱通知視窗及配置新軟體源版本和軟體關閉訂閱通知更新軟體源可能可行，未嘗試

以現代化基礎架構擁抱新零售時代