天天看點

神龍RAC節點1無法啟動問題處理1.問題描述 2.問題分析3.問題解決

環境配置

伺服器配置:

神龍RAC節點1無法啟動問題處理1.問題描述 2.問題分析3.問題解決
資料庫配置:
神龍RAC節點1無法啟動問題處理1.問題描述 2.問題分析3.問題解決

1.問題描述

問題發生過程描述:

神龍Oracle rac由于空間問題希望擴容根目錄,擴容失敗,導緻相關的asm磁盤組多路徑映射出現問題導緻叢集挂起,經過确認是由于該規格的神龍伺服器不支援線上擴容,是以重新恢複到原始狀态以後,rac叢集隻有節點2可以正常啟動,節點1無法啟動;

神龍RAC節點1無法啟動問題處理1.問題描述 2.問題分析3.問題解決
神龍RAC節點1無法啟動問題處理1.問題描述 2.問題分析3.問題解決

2.問題分析

由于存儲相關内容丢失,聯系阿裡存儲同學恢複到原來神龍主機狀态後,asm相關的映射連接配接也恢複了回來;

神龍RAC節點1無法啟動問題處理1.問題描述 2.問題分析3.問題解決

但是整個映射的dm順序兩個節點不同,故而懷疑是否是存儲順序挂載順序錯亂導緻?

但是經過對比雖然dm順序不同,但是實際的對應劃分磁盤的uuid是一緻的;

神龍RAC節點1無法啟動問題處理1.問題描述 2.問題分析3.問題解決

是以排除了是由于順序錯亂問題導緻叢集啟動異常;

嘗試去啟動節點1叢集,啟動以後自動就關閉了叢集服務,再次檢視叢集服務無法檢視如下圖報錯;

神龍RAC節點1無法啟動問題處理1.問題描述 2.問題分析3.問題解決

檢視叢集狀态發現除了磁盤組相關的asm服務外,監聽,vip等相關的節點1服務相應也都啟動了起來,是以從這裡判斷還是和磁盤組有關系。

神龍RAC節點1無法啟動問題處理1.問題描述 2.問題分析3.問題解決

但是我們來檢視節點1的asm的alert日志發現并未有新的asm日志寫入到alert log當中,從現象看好像asm磁盤組在節點1上直接被叢集沒有再識别到,換句話說叢集的啟動并未把asm服務納入到啟動序列裡;

Ps:排查日志是2020-10-20

神龍RAC節點1無法啟動問題處理1.問題描述 2.問題分析3.問題解決

檢查相關的crs的alert日志發現報錯無法識别asm,無法讀取相應的磁盤,ocr磁盤組不可通路;

神龍RAC節點1無法啟動問題處理1.問題描述 2.問題分析3.問題解決

進而檢視相關的trc檔案日志内容如下報錯:

報錯的主要内容就是相關的olr檔案,磁盤組等讀取沒有權限;

less /u01/app/grid_base/diag/crs/ora12c1/crs/trace/crsd_oraagent_oracle.trc

神龍RAC節點1無法啟動問題處理1.問題描述 2.問題分析3.問題解決

less /u01/app/grid_base/diag/crs/ora12c1/crs/trace/ocrcheck_73764.trc

神龍RAC節點1無法啟動問題處理1.問題描述 2.問題分析3.問題解決

是以就對比了兩側的磁盤組相關的檔案權限情況發現兩端完全一緻,grid使用者測試磁盤的讀寫也可以進行;

神龍RAC節點1無法啟動問題處理1.問題描述 2.問題分析3.問題解決

是以考慮重新reload一下asm磁盤組在試試看能否解決;

是以執行了reload操作;

神龍RAC節點1無法啟動問題處理1.問題描述 2.問題分析3.問題解決

再次啟動節點1叢集發現啟動後crs服務還是無法通信,但是ocr心跳盤可以看到了,并且和節點2對比相應的id都是一緻的;

神龍RAC節點1無法啟動問題處理1.問題描述 2.問題分析3.問題解決

問題排查到這裡感覺已經沒有可以排查的方向了;

既然這裡ocr已經啟動正常,那麼就可以嘗試去啟動asm執行個體和資料庫執行個體看看;

果然asm執行個體可以正常啟動成功,磁盤組正常挂載,資料庫執行個體也可以正常啟動;

神龍RAC節點1無法啟動問題處理1.問題描述 2.問題分析3.問題解決
神龍RAC節點1無法啟動問題處理1.問題描述 2.問題分析3.問題解決

但是奇怪的是,雖然這些執行個體及磁盤組可以正常啟動,但是檢視叢集狀态節點1依然不可看,節點2看到的是依然磁盤組是offline,rac1的db執行個體也未正常啟動;

神龍RAC節點1無法啟動問題處理1.問題描述 2.問題分析3.問題解決
神龍RAC節點1無法啟動問題處理1.問題描述 2.問題分析3.問題解決

但是到了這裡希望已經很大了,既然手動可以拉起所有的服務,那麼就可以再次嘗試重新開機叢集看看能不能将所有的服務拉起來;

是以重新關閉節點1叢集并重新開機,果然叢集被正常拉了起來;

神龍RAC節點1無法啟動問題處理1.問題描述 2.問題分析3.問題解決

檢視叢集狀态已經完全恢複正常

神龍RAC節點1無法啟動問題處理1.問題描述 2.問題分析3.問題解決

3.問題解決

重新做磁盤組映射的reload,手動嘗試啟動asm及db執行個體,重新開機叢集;

ps:其中對于内部實作原理和運作機制還有些模糊,各位看官請多指教;