天天看點

ESXi虛拟機無響應故障排錯思路

#頭條創作挑戰賽#

VMware運維管理者在日常維護過程中,經常會鵬達VMware ESX/ESXi 上運作的虛拟機不響應任何外部輸入或卡死的故障,常見的故障表現如下:

  1. 客戶機作業系統不響應控制台上的鍵盤或滑鼠活動。
  2. 客戶機作業系統不響應網絡通信,包括 ping、RDP、SSH 等。
  3. 虛拟機控制台螢幕是靜态的,而不更改或重新整理。
  4. 在虛拟機上執行的任務失敗、逾時或沒有啟動。
  5. 虛拟機不生成網絡或磁盤流量。

本文小編從實際情況出發和結合VMware官方的KB提供的思路,整理了如何 vSphere 虛拟機無響應故障的排錯思路和提供相應的解決思路。

(1)驗證範圍

仔細檢查故障症狀并了解問題的受影響範圍對于解決和排錯問題是十分重要的,要确認問題的範圍,請進行以下檢查:

  1. 确認虛拟機實際上無響應。虛拟機可能在通過某個接口時無響應,但在其他接口上正常工作。有關測試虛拟機是否真正無響應的詳細資訊,請參考VMware KB(KB号:1007802)确認虛拟機是否無響應。
  2. 如果虛拟機有響應但性能不佳,請參考VMware KB(KB号:2001003)對 ESX 虛拟機性能問題進行故障排除 。
  3. 确認虛拟機是否已打開。如果虛拟機意外關閉,請重新打開電源,然後對意外關機的原因進行故障排除。
  4. 确定虛拟機關閉或重新啟動的原因 (請參考VMware KB:1019064) 。注意:如果虛拟機關閉且無法重新打開電源,請參見對無法啟動的虛拟機進行故障排除 (請參考VMware KB:2001005) 。
  5. 确定此問題是影響多個虛拟機,還是僅影響一個虛拟機。如果多個虛拟機都受影響,嘗試縮小潛在範圍時,請考慮受影響虛拟機之間的相似之處。尤其需要注意的是,關注受影響虛拟機組所依賴的共享基礎架構,以及依賴于該通用基礎架構的所有虛拟機是否都受到影響。有關詳細資訊,請參見評估影響多個虛拟機的中斷的共性 (請參考VMware KB:1019000) 。
  6. 确定客戶機作業系統是否響應虛拟機控制台上的互動。如果一個問題隻針對虛拟機中的客戶機作業系統或應用程式,且客戶機作業系統在控制台上有響應,則請在控制台上與客戶機作業系統進行互動以解決此問題。有關詳細資訊,請參見對虛拟機網絡連接配接問題進行故障排除 (請參考VMware KB:1003893) 。
  7. 确定客戶機作業系統或其應用程式服務通過網絡響應互動。如果客戶機作業系統或服務響應網絡通信但控制台無響應或不起作用,請參見無法打開虛拟機控制台 (請參考VMware KB:749640) 或確定虛拟機不因 VMware vCenter 問題而無法通路 (請參考VMware KB:1007808) 。
  8. 确定客戶機作業系統是否向控制台報告了任何嚴重錯誤,并且處于停止狀态。有關詳細資訊,請參見識别虛拟機中的客戶機作業系統嚴重故障 (請參考VMware KB:1003999) 。
  9. 确定 ESX/ESXi 主機是否也無響應。如果主機也無響應,則範圍大于初始假定的範圍。有關詳細資訊,請參見确定 ESX/ESXi 主機不響應控制台上的使用者互動的原因 (請參考VMware KB:1017135) 。

(二)識别原因

此時,您已确定一個或多個虛拟機在虛拟控制台上和通過網絡時無響應。主機本身是有響應的。資源通路或争用可能存在問題,或者基礎存儲或網絡連接配接基礎架構可能存在問題。

要識别原因,請執行以下操作:

  1. 确定該問題是否由虛拟機上執行的操作或任務所觸發。例如,當記憶體狀态通過網絡複制或複制到磁盤上時,快照和 vMotion 操作都會使虛拟機停止一段時間。有關詳細資訊,請參見使用虛拟機記憶體建立快照使虛拟機長時間停止,同時記憶體被寫入磁盤 (請參考VMware KB:1013163) 。
  2. 一些常見的配置錯誤可能導緻虛拟機無響應,如等待資源時。檢視虛拟機和主機配置。有關詳細資訊,請參見:可能導緻虛拟機無響應的常見 ESX/ESXi 主機配置問題 (請參考VMware KB:1007813)
  3. 可能導緻虛拟機無響應的常見 ESX/ESXi 虛拟機配置問題 (請參考VMware KB:1007814)
  4. 虛拟機依賴于正常運作的支援基礎架構。如果虛拟機所依賴的支援存儲或網絡連接配接基礎架構存在問題,則虛拟機提供給客戶機作業系統的虛拟硬體可能會受到影響。解決基礎存儲或網絡連接配接問題。有關詳細資訊,請參見:由于共享存儲連接配接問題,ESX Server 虛拟機停止響應 (請參考VMware KB:1004144)
  5. 驗證 ESX/ESXi 虛拟機存儲是否可通路 (請參考VMware KB:1003751)
  6. 對虛拟機網絡連接配接問題進行故障排除 (請參考VMware KB:1003893)
  7. 虛拟機依賴于可用的主機資源(CPU、記憶體),而客戶機作業系統則消耗這些資源。虛拟機内部或外部的資源可用性或日程安排存在問題可能會導緻其無響應。虛拟機還可能會在不可用的資源上受阻或停止在 100% 的 vCPU 使用率。有關詳細資訊,請參見對已停止響應的虛拟機進行故障排除:VMM 與客戶機的 CPU 使用情況比較 (請參考VMware KB:1017926)。