VMware vSphere数据中心(机房)无人化运维的一个低成本解决方案

2023-05-22 00:27:44

做服务器虚拟化解决方案很多年了，对于集成商而言，有一个问题非常棘手，那就是甲方运维对相关技术不够了解的话，很可能导致项目烂尾。

对于使用者而言，相关虚拟化技术复杂度比传统PC要高出不少，如果没有专业的运维驻场的话，一旦出问题就会很麻烦(有挺多项目的甲方只会简单实用，一出问题就要找集成商技术支持，有时候要等很久，很可能要背锅)

理想情况下，使用者只需要简单了解使用和维护即可，但这要求集成商的方案要非常完善，对于各种各样的问题都要考虑到。

OK，讲了这么多铺垫，现在就讲一下如何解决，我的思路是自动化运维。

我们都知道，机房要24小时值班很大一部分原因是防备突发情况，如断电，温度过高等情况，既然是自动化运维，我们就把这些重要的操作给抽出来，交给机器去做（这篇文章不适用那些管理很完善的机房，有24小时专人值班外加发电机之类的,可能参考意义不大）

我们用这套解决方案，可以大大减少使用者对机房的巡检频率，例如某高校从2-3天巡检一次到1个月巡检一次。

我们现在模拟一下一个VMware vSphere数据中心遇到掉电时管理员的操作流程(假设UPS只能撑30分钟，也没人值班)，监测到市电停电后(如果10分钟内市电没有恢复供电)执行以下操作。

1.有顺序地关闭所有虚拟机。关闭依赖较少的虚拟机，如网站WEB服务器 -> 关闭依赖较多的虚拟机,如数据库.

2.有顺序地关闭ESXI,将一些管理类的ESXI先进行关闭（例如vcenter、horizon等服务)，防止在热关机时其它虚拟机时又被vcenter、horizon等服务唤醒 -> 关闭其他

注：要关闭单个ESXI用VMware 或UPS自带的软件的即可，但如果要做到集群整体正确关闭，可参考我的流程和方案，也可以自己写脚本。

顺便再模拟一下通电了自动唤醒集群的流程。

唤醒所有物理机(ESXI) -> 唤醒依赖性服务（例如：数据库服务、域控服务等）-> 唤醒管理性服务（例如：vcenter、horizon等服务）-> 唤醒其他虚拟机.

总结：虽然导致问题的原因非常多，但大部分都是局部性的，不涉及到整个集群的稳定性，这种问题网管基本都能很快自己解决(如网络)，有时候偶尔硬盘坏了，只要做好备份问题也不大，其实VMware 的软件产品已经很稳定了，但软件做得再好也得会用，同样重要的是运行环境问题，老是非正常关机是最容易出问题的，很容易出现数据不一致而导致唤醒集群时遇到各种各样的麻烦，所以必须把这方面的原因考虑在内才能做得足够稳定，特别是很多系统集成商在做方案时应该考虑到，很多用户网管基本就是学到会用的程度，他们也有很多工作要做，指望每个用户都学得很精通是不现实的。

VMware vSphere数据中心(机房)无人化运维的一个低成本解决方案

继续阅读

云计算面试题——文件/权限/分区/软件包管理

vsftpd dead but subsys locked 的解决方法

Apache httpd 安装启动demo（Window版）

Apache配置文件中的deny和allow的使用

Shell编程——sort排序、uniq忽略重复、tr替换压缩删除、cut指定删除字段、正则表达式元字符sort 命令uniq 命令tr 命令cut 命令正则表达式

ICG表面修饰稀土上转换纳米颗粒，ICG-PCL-PEG-FA 吲哚菁绿-聚已内酯-聚乙二醇-叶酸

Linxu常用命令技巧汇总

httpd服务的部署、启动、配置和简单优化一、部署二、启动三、配置文件

配置网页内容访问

艰难安装LDAP,SSL认证

Apache配置SSLApache配置SSL

Windows下配置Apache的SSL服务

《Linux命令行与Shell脚本编程大全第2版.布卢姆》pdf

Android电视机（机顶盒）初次开发的一些经验分享

nginx 安装错误信息解决

Ambari介绍和架构原理