天天看点

血与泪的教训,虚拟机如何降低应用中断风险?需求解决方案总结

需求

VMware vSphere 是 VMware 的虚拟化平台,可将数据中心转换为包括 CPU、存储和网络资源的聚合计算基础架构。vSphere 将这些基础架构作为一个统一的运行环境进行管理,并为您提供工具来管理加入该环境的数据中心。

正是由于 VMware vSphere 的解决方案如此优秀,以至于让管理者们将其真正能力停留在最基础的阶段,例如:

  • 虚拟机创建、克隆、模板、快照;
  • 虚拟机CPU、内存热插拔;
  • vSphere HA 、vSphere DRS;

但是在真正使用过程中,vSphere集群的理想运行效果缺被现实狠狠打脸,例如:

  • 同一个vSAN集群中某一宿主机异常,VM重启迁移导致业务系统发生不同程度中断;
  • VM操作系统只读,导入磁盘分区无法写入;
  • VM虚拟机网卡失效,需重新挂载网卡并重启才生效;

由于同一业务系统的VM并没有分散在不同的宿主机上,一旦以上几种场景发生,那么业务系统将发生不同程度的中断,直接影响我们的SLA。而此种风险需要我们对vSphere能力的进一步探索才能更好的解决。

解决方案

利⽤虚拟机/主机的反关联性规则功能,将相同应⽤的虚拟机智能的分布在不同的主机上,降低因为单⼀主机故障导致某⼀应⽤直接不可⽤的风险,提⾼应⽤的可⽤性。** 而Vmware的默认设置是对虚拟机没有单独定义关联或者反关联规则,因此所有虚拟机和主机的对应都是完全随机的**。

实现方法

⾸先按照应⽤类别,梳理出相同应⽤的虚拟机。通过创建反关联性规则,以指示某些虚拟机的所有虚拟磁盘都必须保留在不同的数据存储上,此规则将应⽤到各数据存储集群。

数据存储集群中应⽤虚拟机反关联性规则的虚拟机,都必须与此数据存储集群中的虚拟机内部关联性规则相关联。这些虚拟机也必须符合虚拟机内部关联性规则。

当虚拟机受虚拟机反关联性规则限制时,将具有以下⾏为:

  • Storage DRS 将根据规则放置虚拟机的虚拟磁盘;
  • 即使是强制进⾏迁移(如将数据存储置于维护模式),Storage DRS 也会根据规则使⽤vMotion迁移虚拟磁盘。
  • 如果虚拟机的虚拟磁盘违反了规则,则Storage DRS将提出迁移建议来更正这⼀错误,或者在⽆法提出更正错误的建议时将此违反报告为故障。

默认情况下,未定义任何虚拟机反关联性规则。

操作步骤

  1. 在 vSphere Client 中,浏览到数据存储集群。
  2. 依次单击配置选项卡和配置。
  3. 选择虚拟机/主机规则。
  4. 单击添加。
  5. 键⼊规则的名称(建议与应⽤相关)。
  6. 从“类型”菜单中,选择虚拟机反关联性。
  7. 单击添加。
  8. 单击选择虚拟机。
  9. ⾄少选择两台虚拟机,然后单击确定。
  10. 单击确定以保存该规则。
  11. 以此类推,每⼀个应⽤都与规则关联。设置后确保相同应⽤的不同虚拟机回⾃动的分布在不同的主机上。

总结

VMware vSphere的文档很齐全,但因缺少故障场景的适配,我们一般不会去做进一步的配置,因此在后续运维过程中要对故障场景多做复盘,团队集思广益去寻找最佳实践。