天天看點

proxmox叢集節點崩潰處理

問題描述

在現有叢集加入一個實體節點,接着再此節點建立ceph螢幕、建立OSD。從主控端系統執行ceph osd tree檢視狀态,建立起來的幾個OSD狀态都正常(up),從proxmox管理界面看也是這樣。

突然不知道什麼原因,剛加入的節點就突然不能從叢集中失效了。

proxmox叢集節點崩潰處理

再進主控端系統查OSD狀态,居然自己從up變成down。新增節點沒資料,于是就試試重新開機,看能不能正常。重新開機以後,網絡能通,ssh不能連接配接,web管理界面也不能通路。接下來,需要先把故障節點從叢集中撤離出來,恢複以後,再加入叢集。

從叢集中删除故障節點

按操作順序分兩個步驟:從叢集中删除故障ceph和從叢集中删除實體節點。

ü  從叢集中删除故障ceph

1.       登入叢集任意實體正常節點系統,執行如下指令檢視ceph osd狀态:

root@pve48:~# ceph osd tree

ID CLASS WEIGHT   TYPE NAME      STATUS REWEIGHT PRI-AFF

-1         18.00357 root default                          

-3          4.91006     host pve48                        

 0     hdd  1.63669         osd.0      up    1.00000 1.00000

 1     hdd  1.63669         osd.1      up    1.00000 1.00000

 2     hdd  1.63669         osd.2        up  1.00000 1.00000

-5          4.91006     host pve49                        

 3     hdd  1.63669         osd.3      up    1.00000 1.00000

 4     hdd  1.63669         osd.4      up    1.00000 1.00000

 5     hdd  1.63669         osd.5      up    1.00000 1.00000

-7          4.91006     host pve50                        

 6     hdd  1.63669         osd.6      up    1.00000 1.00000

 7     hdd  1.63669         osd.7      up    1.00000 1.00000

 8     hdd  1.63669         osd.8      up    1.00000 1.00000

-9          3.27338     host pve51                        

9           hdd  1.63669         osd.9    down        0 1.00000

10     hdd  1.63669         osd.10   down          0 1.00000

從輸出可知實體節點pve51的兩個OSD有問題,需要删除。

2.       離線有問題的ceph osd,執行的操作如下:

root@pve48:~# ceph osd out osd.9

osd.9 is already out.

root@pve48:~# ceph osd out osd.10

osd.10 is already out.

操作時要仔細,别把正常的osd離線了。

3.       删除已經離線osd認證資訊,執行的操作如下:

root@pve48:~# ceph auth del osd.9

updated

root@pve48:~# ceph auth del osd.10

4.       徹底删除故障osd,操作如下:

root@pve48:~# ceph osd rm 9

removed osd.9

root@pve48:~# ceph osd rm 10

removed osd.10

注意:此操作ceph最後一列參數與前邊的不同,是純數字格式!!!

5.       檢視叢集osd狀态,操作如下:

-1         18.00357 root default                             

 2     hdd  1.63669         osd.2      up    1.00000 1.00000

-9          3.27338     host pve51                         

9           hdd  1.63669         osd.9     DNE        0        

10     hdd  1.63669         osd.10    DNE          0  

操作完成後,故障節點的osd狀态從down變成了DNE

6.       删除故障節點的ceph磁盤,操作如下:

root@pve48:~# ceph osd crush rm osd.9

removed item id 9 name 'osd.9' from crush   map

root@pve48:~# ceph osd crush rm osd.10

removed item id 10 name 'osd.10' from crush   map

7.       從ceph叢集中删除實體節點,操作如下:

root@pve48:~# ceph osd crush rm  pve51

removed item id -9 name 'pve51' from crush   map

8.       執行指令 ceph osd tree 檢視狀态,看是否把故障節點從ceph叢集清理出去。

ü  從叢集中删除故障節點

Ø  叢集上的操作

登入叢集中任意正常節點,執行如下指令進行驅逐操作:

root@pve48:~# pvecm  delnode pve51

Killing   node 4

繼續閱讀