該篇文章主要是在實際工作中提煉并總結出來,在此作為記錄,可以作為企業通用私有雲指南來閱讀,當然具體情況還是要根據實際情況規劃并實施。下面閱讀需要有VMWare基礎,并了解路由交換的基礎知識。公衆号(網絡小斐)
下面我将按照下面子產品展開:
- 背景介紹
- 網絡改造
- 版本更新
- 線路割接
- 注意事項
背景介紹
某公司線下自建機房,杭州和北京各一套,實體伺服器杭州100台左右,北京50台内,線下承載的業務都是測試和開發環境,以及一些内部資訊化相關系統和業務,線上正式環境都在公有雲上,在下面介紹中北京忽略,主要以杭州線下環境展開。
杭州機房伺服器主要是以部署VMWare為主,其他都是一些單純實體伺服器和稅務相關。
杭州伺服器VMWare有兩套,主要是以存儲方式的不同區分。一套是比較傳統的共享存儲模式,一套是VMWare vSAN模式,可看一下官方架構圖:
網絡改造
因曆史遺留問題或是當初的預算問題,導緻機房Underlay(實體)層網絡都存在單點故障。
- 一是機房核心層(Core Switch)單裝置,上聯單鍊路,連接配接總核心(Total Core Switch)
- 二是機房接入層(TOR Switch)單裝置,下聯單鍊路,連接配接戴爾伺服器(Dell Server Machine)
來看下網絡拓撲:
網絡拓撲
上圖中可以看出Core Switch是單台,作為機房的核心,存在單點故障,高可靠性完全談不上;同時機房核心到總核心是單鍊路(圖中未畫出),故鍊路也存在鍊路單點故障,也是隐患;實體伺服器(這裡主要是x86_64架構的伺服器)除了iDrac(帶外)單網口,其他管理網,業務網,存儲網都是單網口,業務層面也是存在安全隐患。
網絡改造如下:
- Core Switch新增一台,同型号交換機組建堆疊,剛好存留下的交換機帶堆疊口,隻需采購堆疊線即可,1000元(堆疊線費用)以内完成核心層高可用改造。
- 接入層兩兩台交換機組建堆疊(業務口組建堆疊,利舊裝置),這個後面說到VMWare在展開具體說明原因。
- 伺服器管理網口兩個,業務口兩個,存儲兩個。
如下拓撲圖:
拓撲圖
網絡改造遵循高可用原則和成本并行,考慮SLA的時候結合SLI和SLO并行。
上面的完成了基本的機房網絡高可用改造,需要注意幾點:
- 能用技術解決的問題不要增加額外成本。
- 網絡裝置利舊的情況下,網絡裝置固件和更新檔安排到最新穩定版本。
- 堆疊裝置固件和更新檔版本必須保持一緻。
- 堆疊配置優先級,主從不要搶占,堆疊腦裂檢測需要配置。
- 如果是相鄰的樓宇之間,室外線路盡量用裸光纜。
- 網絡布線必須打标簽,并且标簽需要規範化和标準化。
- 路由設計看網絡規模大小,大部分企業網内部可靜态結合OSPF。
- 網段規劃要有規律并有擴容空間。
版本更新
VMWare現狀在背景一欄有說明,目前VMWare有兩套,一套是共享存儲,一套是vSAN,為啥要用兩套,這是曆史遺留和技術債的問題。
因共享存儲IO性能好,目前已經趨向給測試環境使用,主要是承載内部測試環境(k8s),vSAN環境因伺服器型号偏老,磁盤是HDD+SSD混合部署,而且SSD緩存盤還不大,SSD和HDD比例達到1:10幾,IO性能不滿足測試環境需求,更多給到開發使用或者不是很重要的環境使用。
VMWare和vSAN如何部署和使用,在此不表,感興趣還是去看全套教程或者官網。在這裡主要分享下VMWare版本更新和伺服器固件版本基線的處理和工具分享。
主要動力是VMWare爆出安全漏洞問題,為了配合安全部門的需求,以及曆史積累的因固件導緻的故障,決定在此更新實體伺服器固件和ESXI的版本,下表是我目前版本情況:
環境 | ESXI版本 | 網絡模式 | vCenter版本 |
共享存儲 | ESXI 6.0 u3a | 标準交換機 | vCenter 6.5 u3 |
vSAN | ESXI 7.0 u3c | 分布式交換機 | vCenter 7.0 u3d |
主要更新的是共享存儲那一套的ESXI版本,vCenter版本不更新,而vCenter 7.0的版本可納管和配置互導入的版本依賴如下:
vCenter版本 | ESXI 6.0 | ESXI 6.5 | ESXI 6.7 | ESXI 7.0 |
vCenter 6.5 | 可納管 | 可納管 | 不可納管 | 不可納管 |
vCenter 7.0 | 不可納管 | 可納管 | 可納管 | 可納管 |
vCenter之間機器互相導入,vCenter 6.5可直接導入到vCenter 6.7和vCenter 7.0,但是vCenter 6.0不可以導入vCenter 7.0。可以發現規律,版本之間相差2個版本以上就無法向下相容,需要過度中間版本進行。
而共享存儲環境的ESXI 6.0 u3a版本更新到ESXI 6.7 u3版本,更新ESXI,把需要更新的機器中的虛拟機進行遷移到其他主控端中,vMotion的強大可以不斷網遷移,就是虛拟機丢幾個包,不影響;就這樣循環下去,一台一台更新就可以,但是在此更新ESXI之前需要更新實體伺服器固件和BIOS固件,我在這裡推薦Dell的OpenManage,可以對Dell品牌的裝置進行iDrac管理,有了它就不用天天跑機房,蹲機房用U盤更新或者其他方式更新了。
OpenManage基本情況:
- 批量發現設定的網段,自動尋找iDrac資訊,并納管到OpenManage
- 收集硬體資訊,主要對硬體裝置資訊監控和報警
- 設定伺服器硬體固件和驅動基線,并自動更新
OpenManage
OpenManage強力推薦,上手很快,固件和驅動更新很快就完成了,接下來更新ESXI版本到ESXI 6.7u3版本,後續看情況是否更新到7.0版本,目前ESXI已經到了8.0版本,不過我不建議用太新的版本。
更新方式:
- OpenManage調用虛拟控制台,遠端挂載安裝包,進行更新,具體步驟就不展示,很簡單的,安裝提示更新即可。
- 針對老舊伺服器,iDrac沒有帶企業版,虛拟控制台不可用,隻能去機房更新ESXI了,當然固件和驅動還是可以用OpenManage啊,還是很友善。
踩過的坑:
- iDrac和BIOS版本更新,如果版本差距過大,需要先更新到中間版本過度
改造後虛拟機網絡情況:
如果看不明白上面的圖,就看下面的官方圖:
注意事項:
- vSAN下的分布式交換機,交換機不需要分開,不需要建立多個交換機,如果需要做和實體交換機做LACP動态綁定,可根據不同業務分開交換機。
- 可以在單個分布式交換機下建立多個上行鍊路端口組和分布式端口組,不同的端口組做不同的功能,比如業務端口組、管理端口組、存儲端口組(vSAN流量)。
- vMotion流量可以設定在某個空閑并且帶寬大的端口組上。
- EVC最好開啟。
- 分布式交換機,可以了解為實際實體機交換機和一個虛拟交換機互聯,故端口需要配置為vlan trunk。
- 共享存儲環境都是使用标準交換機,沒有使用分布式交換機。
- 曆史遺留的技術債很多,後續持續改進吧。
線路割接
為保障業務不停機,線上路割接的過程,都是提前配置好交換機和做好堆疊和業務配置。
伺服器線路新增,由于是老的交換機和切換的堆疊交換機是并行運作,故業務不中斷。
注意事項
- 更新之前多看官方文檔,特别是新版本不了解的情況下。
- 需要對VMWare vSphere、vCenter、vSAN架構和内部功能有全面細緻的了解。
- 做共享存儲伺服器做存儲的時候,需要注意iSCSI擴充卡的識别情況,以及共享存儲伺服器的IO性能是否滿足你的業務。
- vSAN做分布式存儲的時候就需要确定伺服器規格,特别是HDD和SSD的組合比例,實際業務需要的性能,要做實際測試。
- HA和DRS開啟需要确定你實際實體伺服器的容量,需要評估業務可靠性要求,然後定義合适的政策,以滿足業務需求。
- 其他情況具體情況具體考慮,太細節的問題需要去檢視官方文檔,如果不放心,最好做實際測試。
VMWare不适合分享零散的文章,建議去看官方文檔比較好,這裡這是提供一些注意事項和經驗,歡迎有興趣的朋友一起交流。