天天看点

ESXi虚拟机无响应故障排错思路

#头条创作挑战赛#

VMware运维管理员在日常维护过程中,经常会鹏达VMware ESX/ESXi 上运行的虚拟机不响应任何外部输入或卡死的故障,常见的故障表现如下:

  1. 客户机操作系统不响应控制台上的键盘或鼠标活动。
  2. 客户机操作系统不响应网络通信,包括 ping、RDP、SSH 等。
  3. 虚拟机控制台屏幕是静态的,而不更改或刷新。
  4. 在虚拟机上执行的任务失败、超时或没有启动。
  5. 虚拟机不生成网络或磁盘流量。

本文小编从实际情况出发和结合VMware官方的KB提供的思路,整理了如何 vSphere 虚拟机无响应故障的排错思路和提供相应的解决思路。

(1)验证范围

仔细检查故障症状并了解问题的受影响范围对于解决和排错问题是十分重要的,要确认问题的范围,请进行以下检查:

  1. 确认虚拟机实际上无响应。虚拟机可能在通过某个接口时无响应,但在其他接口上正常工作。有关测试虚拟机是否真正无响应的详细信息,请参考VMware KB(KB号:1007802)确认虚拟机是否无响应。
  2. 如果虚拟机有响应但性能不佳,请参考VMware KB(KB号:2001003)对 ESX 虚拟机性能问题进行故障排除 。
  3. 确认虚拟机是否已打开。如果虚拟机意外关闭,请重新打开电源,然后对意外关机的原因进行故障排除。
  4. 确定虚拟机关闭或重新启动的原因 (请参考VMware KB:1019064) 。注意:如果虚拟机关闭且无法重新打开电源,请参见对无法启动的虚拟机进行故障排除 (请参考VMware KB:2001005) 。
  5. 确定此问题是影响多个虚拟机,还是仅影响一个虚拟机。如果多个虚拟机都受影响,尝试缩小潜在范围时,请考虑受影响虚拟机之间的相似之处。尤其需要注意的是,关注受影响虚拟机组所依赖的共享基础架构,以及依赖于该通用基础架构的所有虚拟机是否都受到影响。有关详细信息,请参见评估影响多个虚拟机的中断的共性 (请参考VMware KB:1019000) 。
  6. 确定客户机操作系统是否响应虚拟机控制台上的交互。如果一个问题只针对虚拟机中的客户机操作系统或应用程序,且客户机操作系统在控制台上有响应,则请在控制台上与客户机操作系统进行交互以解决此问题。有关详细信息,请参见对虚拟机网络连接问题进行故障排除 (请参考VMware KB:1003893) 。
  7. 确定客户机操作系统或其应用程序服务通过网络响应交互。如果客户机操作系统或服务响应网络通信但控制台无响应或不起作用,请参见无法打开虚拟机控制台 (请参考VMware KB:749640) 或确保虚拟机不因 VMware vCenter 问题而无法访问 (请参考VMware KB:1007808) 。
  8. 确定客户机操作系统是否向控制台报告了任何严重错误,并且处于停止状态。有关详细信息,请参见识别虚拟机中的客户机操作系统严重故障 (请参考VMware KB:1003999) 。
  9. 确定 ESX/ESXi 主机是否也无响应。如果主机也无响应,则范围大于初始假定的范围。有关详细信息,请参见确定 ESX/ESXi 主机不响应控制台上的用户交互的原因 (请参考VMware KB:1017135) 。

(二)识别原因

此时,您已确定一个或多个虚拟机在虚拟控制台上和通过网络时无响应。主机本身是有响应的。资源访问或争用可能存在问题,或者基础存储或网络连接基础架构可能存在问题。

要识别原因,请执行以下操作:

  1. 确定该问题是否由虚拟机上执行的操作或任务所触发。例如,当内存状态通过网络复制或复制到磁盘上时,快照和 vMotion 操作都会使虚拟机停止一段时间。有关详细信息,请参见使用虚拟机内存创建快照使虚拟机长时间停止,同时内存被写入磁盘 (请参考VMware KB:1013163) 。
  2. 一些常见的配置错误可能导致虚拟机无响应,如等待资源时。查看虚拟机和主机配置。有关详细信息,请参见:可能导致虚拟机无响应的常见 ESX/ESXi 主机配置问题 (请参考VMware KB:1007813)
  3. 可能导致虚拟机无响应的常见 ESX/ESXi 虚拟机配置问题 (请参考VMware KB:1007814)
  4. 虚拟机依赖于正常运行的支持基础架构。如果虚拟机所依赖的支持存储或网络连接基础架构存在问题,则虚拟机提供给客户机操作系统的虚拟硬件可能会受到影响。解决基础存储或网络连接问题。有关详细信息,请参见:由于共享存储连接问题,ESX Server 虚拟机停止响应 (请参考VMware KB:1004144)
  5. 验证 ESX/ESXi 虚拟机存储是否可访问 (请参考VMware KB:1003751)
  6. 对虚拟机网络连接问题进行故障排除 (请参考VMware KB:1003893)
  7. 虚拟机依赖于可用的主机资源(CPU、内存),而客户机操作系统则消耗这些资源。虚拟机内部或外部的资源可用性或日程安排存在问题可能会导致其无响应。虚拟机还可能会在不可用的资源上受阻或停止在 100% 的 vCPU 利用率。有关详细信息,请参见对已停止响应的虚拟机进行故障排除:VMM 与客户机的 CPU 使用情况比较 (请参考VMware KB:1017926)。