天天看点

VMware vSphere数据中心(机房)无人化运维的一个低成本解决方案

做服务器虚拟化解决方案很多年了,对于集成商而言,有一个问题非常棘手,那就是甲方运维对相关技术不够了解的话,很可能导致项目烂尾。

对于使用者而言,相关虚拟化技术复杂度比传统PC要高出不少,如果没有专业的运维驻场的话,一旦出问题就会很麻烦(有挺多项目的甲方只会简单实用,一出问题就要找集成商技术支持,有时候要等很久,很可能要背锅)

理想情况下,使用者只需要简单了解使用和维护即可,但这要求集成商的方案要非常完善,对于各种各样的问题都要考虑到。

OK,讲了这么多铺垫,现在就讲一下如何解决,我的思路是自动化运维。

我们都知道,机房要24小时值班很大一部分原因是防备突发情况,如断电,温度过高等情况,既然是自动化运维,我们就把这些重要的操作给抽出来,交给机器去做(这篇文章不适用那些管理很完善的机房,有24小时专人值班外加发电机之类的,可能参考意义不大)

我们用这套解决方案,可以大大减少使用者对机房的巡检频率,例如某高校从2-3天巡检一次到1个月巡检一次。

我们现在模拟一下一个VMware vSphere数据中心遇到掉电时管理员的操作流程(假设UPS只能撑30分钟,也没人值班),监测到市电停电后(如果10分钟内市电没有恢复供电)执行以下操作。

1.有顺序地关闭所有虚拟机。关闭依赖较少的虚拟机,如网站WEB服务器 -> 关闭依赖较多的虚拟机,如数据库.

2.有顺序地关闭ESXI,将一些管理类的ESXI先进行关闭(例如vcenter、horizon等服务),防止在热关机时其它虚拟机时又被vcenter、horizon等服务唤醒 -> 关闭其他

注:要关闭单个ESXI用VMware 或UPS自带的软件的即可,但如果要做到集群整体正确关闭,可参考我的流程和方案,也可以自己写脚本。

顺便再模拟一下通电了自动唤醒集群的流程。

唤醒所有物理机(ESXI) -> 唤醒依赖性服务(例如:数据库服务、域控服务等)-> 唤醒管理性服务(例如:vcenter、horizon等服务)-> 唤醒其他虚拟机.

总结:虽然导致问题的原因非常多,但大部分都是局部性的,不涉及到整个集群的稳定性,这种问题网管基本都能很快自己解决(如网络),有时候偶尔硬盘坏了,只要做好备份问题也不大,其实VMware 的软件产品已经很稳定了,但软件做得再好也得会用,同样重要的是运行环境问题,老是非正常关机是最容易出问题的,很容易出现数据不一致而导致唤醒集群时遇到各种各样的麻烦,所以必须把这方面的原因考虑在内才能做得足够稳定,特别是很多系统集成商在做方案时应该考虑到,很多用户网管基本就是学到会用的程度,他们也有很多工作要做,指望每个用户都学得很精通是不现实的。

继续阅读