该篇文章主要是在实际工作中提炼并总结出来,在此作为记录,可以作为企业通用私有云指南来阅读,当然具体情况还是要根据实际情况规划并实施。下面阅读需要有VMWare基础,并了解路由交换的基础知识。公众号(网络小斐)
下面我将按照下面模块展开:
- 背景介绍
- 网络改造
- 版本升级
- 线路割接
- 注意事项
背景介绍
某公司线下自建机房,杭州和北京各一套,物理服务器杭州100台左右,北京50台内,线下承载的业务都是测试和开发环境,以及一些内部信息化相关系统和业务,线上正式环境都在公有云上,在下面介绍中北京忽略,主要以杭州线下环境展开。
杭州机房服务器主要是以部署VMWare为主,其他都是一些单纯物理服务器和税务相关。
杭州服务器VMWare有两套,主要是以存储方式的不同区分。一套是比较传统的共享存储模式,一套是VMWare vSAN模式,可看一下官方架构图:
网络改造
因历史遗留问题或是当初的预算问题,导致机房Underlay(物理)层网络都存在单点故障。
- 一是机房核心层(Core Switch)单设备,上联单链路,连接总核心(Total Core Switch)
- 二是机房接入层(TOR Switch)单设备,下联单链路,连接戴尔服务器(Dell Server Machine)
来看下网络拓扑:
网络拓扑
上图中可以看出Core Switch是单台,作为机房的核心,存在单点故障,高可靠性完全谈不上;同时机房核心到总核心是单链路(图中未画出),故链路也存在链路单点故障,也是隐患;物理服务器(这里主要是x86_64架构的服务器)除了iDrac(带外)单网口,其他管理网,业务网,存储网都是单网口,业务层面也是存在安全隐患。
网络改造如下:
- Core Switch新增一台,同型号交换机组建堆叠,刚好存留下的交换机带堆叠口,只需采购堆叠线即可,1000元(堆叠线费用)以内完成核心层高可用改造。
- 接入层两两台交换机组建堆叠(业务口组建堆叠,利旧设备),这个后面说到VMWare在展开具体说明原因。
- 服务器管理网口两个,业务口两个,存储两个。
如下拓扑图:
拓扑图
网络改造遵循高可用原则和成本并行,考虑SLA的时候结合SLI和SLO并行。
上面的完成了基本的机房网络高可用改造,需要注意几点:
- 能用技术解决的问题不要增加额外成本。
- 网络设备利旧的情况下,网络设备固件和补丁安排到最新稳定版本。
- 堆叠设备固件和补丁版本必须保持一致。
- 堆叠配置优先级,主从不要抢占,堆叠脑裂检测需要配置。
- 如果是相邻的楼宇之间,室外线路尽量用裸光缆。
- 网络布线必须打标签,并且标签需要规范化和标准化。
- 路由设计看网络规模大小,大部分企业网内部可静态结合OSPF。
- 网段规划要有规律并有扩容空间。
版本升级
VMWare现状在背景一栏有说明,目前VMWare有两套,一套是共享存储,一套是vSAN,为啥要用两套,这是历史遗留和技术债的问题。
因共享存储IO性能好,目前已经趋向给测试环境使用,主要是承载内部测试环境(k8s),vSAN环境因服务器型号偏老,磁盘是HDD+SSD混合部署,而且SSD缓存盘还不大,SSD和HDD比例达到1:10几,IO性能不满足测试环境需求,更多给到开发使用或者不是很重要的环境使用。
VMWare和vSAN如何部署和使用,在此不表,感兴趣还是去看全套教程或者官网。在这里主要分享下VMWare版本升级和服务器固件版本基线的处理和工具分享。
主要动力是VMWare爆出安全漏洞问题,为了配合安全部门的需求,以及历史积累的因固件导致的故障,决定在此升级物理服务器固件和ESXI的版本,下表是我目前版本情况:
环境 | ESXI版本 | 网络模式 | vCenter版本 |
共享存储 | ESXI 6.0 u3a | 标准交换机 | vCenter 6.5 u3 |
vSAN | ESXI 7.0 u3c | 分布式交换机 | vCenter 7.0 u3d |
主要升级的是共享存储那一套的ESXI版本,vCenter版本不升级,而vCenter 7.0的版本可纳管和配置互导入的版本依赖如下:
vCenter版本 | ESXI 6.0 | ESXI 6.5 | ESXI 6.7 | ESXI 7.0 |
vCenter 6.5 | 可纳管 | 可纳管 | 不可纳管 | 不可纳管 |
vCenter 7.0 | 不可纳管 | 可纳管 | 可纳管 | 可纳管 |
vCenter之间机器相互导入,vCenter 6.5可直接导入到vCenter 6.7和vCenter 7.0,但是vCenter 6.0不可以导入vCenter 7.0。可以发现规律,版本之间相差2个版本以上就无法向下兼容,需要过度中间版本进行。
而共享存储环境的ESXI 6.0 u3a版本升级到ESXI 6.7 u3版本,升级ESXI,把需要升级的机器中的虚拟机进行迁移到其他宿主机中,vMotion的强大可以不断网迁移,就是虚拟机丢几个包,不影响;就这样循环下去,一台一台升级就可以,但是在此升级ESXI之前需要升级物理服务器固件和BIOS固件,我在这里推荐Dell的OpenManage,可以对Dell品牌的设备进行iDrac管理,有了它就不用天天跑机房,蹲机房用U盘升级或者其他方式升级了。
OpenManage基本情况:
- 批量发现设定的网段,自动寻找iDrac信息,并纳管到OpenManage
- 收集硬件信息,主要对硬件设备信息监控和报警
- 设置服务器硬件固件和驱动基线,并自动更新
OpenManage
OpenManage强力推荐,上手很快,固件和驱动升级很快就完成了,接下来升级ESXI版本到ESXI 6.7u3版本,后续看情况是否升级到7.0版本,目前ESXI已经到了8.0版本,不过我不建议用太新的版本。
升级方式:
- OpenManage调用虚拟控制台,远程挂载安装包,进行升级,具体步骤就不展示,很简单的,安装提示升级即可。
- 针对老旧服务器,iDrac没有带企业版,虚拟控制台不可用,只能去机房升级ESXI了,当然固件和驱动还是可以用OpenManage啊,还是很方便。
踩过的坑:
- iDrac和BIOS版本升级,如果版本差距过大,需要先升级到中间版本过度
改造后虚拟机网络情况:
如果看不明白上面的图,就看下面的官方图:
注意事项:
- vSAN下的分布式交换机,交换机不需要分开,不需要创建多个交换机,如果需要做和物理交换机做LACP动态绑定,可根据不同业务分开交换机。
- 可以在单个分布式交换机下创建多个上行链路端口组和分布式端口组,不同的端口组做不同的功能,比如业务端口组、管理端口组、存储端口组(vSAN流量)。
- vMotion流量可以设置在某个空闲并且带宽大的端口组上。
- EVC最好开启。
- 分布式交换机,可以理解为实际物理机交换机和一个虚拟交换机互联,故端口需要配置为vlan trunk。
- 共享存储环境都是使用标准交换机,没有使用分布式交换机。
- 历史遗留的技术债很多,后续持续改进吧。
线路割接
为保障业务不停机,在线路割接的过程,都是提前配置好交换机和做好堆叠和业务配置。
服务器线路新增,由于是老的交换机和切换的堆叠交换机是并行运行,故业务不中断。
注意事项
- 升级之前多看官方文档,特别是新版本不了解的情况下。
- 需要对VMWare vSphere、vCenter、vSAN架构和内部功能有全面细致的了解。
- 做共享存储服务器做存储的时候,需要注意iSCSI适配器的识别情况,以及共享存储服务器的IO性能是否满足你的业务。
- vSAN做分布式存储的时候就需要确定服务器规格,特别是HDD和SSD的组合比例,实际业务需要的性能,要做实际测试。
- HA和DRS开启需要确定你实际物理服务器的容量,需要评估业务可靠性要求,然后定义合适的策略,以满足业务需求。
- 其他情况具体情况具体考虑,太细节的问题需要去查看官方文档,如果不放心,最好做实际测试。
VMWare不适合分享零散的文章,建议去看官方文档比较好,这里这是提供一些注意事项和经验,欢迎有兴趣的朋友一起交流。