天天看點

看雲栖說雲栖——風火水電、方升、泰山、貔貅

流浪地球軟體工程師李一一:

“春節十二響沒有點火程式,是以你們要手動啟動撞針了!”

“為什麼軟體上傳不了?為什麼破解不了?”

流浪地球硬體工程師何連科:

“沒有硬體支援,你破解個屁。”

沒有硬體的支援,雲也一樣啥也計算不出來。2019雲栖大會,先讓我們看看支撐起阿裡雲及阿裡經濟體一切業務的的資料中心實體基礎設施和伺服器相關的内容吧。

讨論資料中心,就離不開風、火、水、電、就離不開選址、土建。

網際網路資料中心專場的開場嘉賓是中國信通雲大所資料中心部李潔主任,演講的題目是《國家及地方資料中心政策解讀》,先來報一組資料:

  • 我國在用資料中心總規格達到166萬架,同比增長比例達到33.4%。
  • 超大型資料中心共計36個,機架規模達到28.3萬架;大型資料中心共計166個,機架規格達到54萬架,大型、超大型規格增速比例達到60%。
  • 内蒙古、河北、貴州、甯夏在用機架數全國占比超過30%;
  • 北京、上海、廣東在用機架數全國占比降低到37%,降低超過5個百分比。

再來一組區域發展指引:

  • 熱點地區:北京、上海、廣州、深圳等一線城市資料中心資源增速放緩
  • 周邊地區:建立資料中心快速增長,網絡品質、建設等級及運維水準較高,提供大量可用資源,逐漸承接一線城市部分應用需求,可有效緩解一線城市資料中心資源緊張的局面。
  • 西部地區:資料中心網絡、運維不斷完善,業務定位逐漸清晰,冷存儲業務、本地計算業務開始上線,資料中心使用率正在不斷提高,與東部資料中心協同發展

總結起來就是鼓勵建設大型和超大型資料中心,對一線城市的資料中心建設和擴建進行限制,鼓勵在一線城市周邊建立承接線上業務的資料中心,在西部地區建立用于冷存儲、計算型的資料中心。與此對應,阿裡雲張北資料中心、烏蘭察布資料中心、廣東河源資料中心已經或者即将開服,其中已經開服的張北資料中心到北京的網絡延時已經可以控制在10ms以内。

阿裡雲資深專家後羿在《基礎資源的可持續供給》部分的演講中提到:L3(例如張北、烏蘭察布、河源)較核心城市L1(例如北京、深圳)的IDC單KW成本下降25%-35%。阿裡雲的IDC資源發展政策就是要限制L1,做大基地型。

估計以後會看到越來越多的類似阿裡雲張北資料中心這樣的基地型資料中心。

在阿裡雲進階技術專家王鑫的《阿裡巴巴綠色資料中心實踐和探索》的演講中對阿裡雲資料中心的建設政策進行了闡述:标準化是實作精細化管理的關鍵,要能夠快速複制,從傳統的串行設計思路,轉變為以子產品标準容量和标準配置為固定值的模式,将全國主力建設标準濃縮到2-3個版本,設計、建設、預制産品、規模采購,尤其是運維,避免更大的風險及成本投入。

在最後阿裡巴巴進階技術專家水旺的《阿裡巴巴高可用雲資料中心基礎設施服務》中,介紹了阿裡巴巴高可用資料中心的規劃标準:

  • 光纖獨立三路由
  • 外市電獨立雙路由
  • 市政供水管道雙路由
  • 園區獨立封閉
  • 同地域可用區之間距離大于15KM,小于30KM
  • 10KV-AC/240DC 高效率的直流供電系統,五年免維護,全世界第一的轉換效率(98.5%)

在介紹建立資料中心設計規劃時有一個細節:阿裡雲不同地域的資料中心的單體A、單體B、單體C、單體D、單體E、變電站、綜合樓這些建築隻是相對位置和擺放方向不同,所有資料中心單體建築内部格局都是完全相同的。

資料中心是标準的,阿裡雲的伺服器也是标準的,這個标準就是方升。

在開放(資料中心)硬體專場,阿裡巴巴基礎設施事業部伺服器架構師火流在《開放·共享·共建中國雲伺服器生态》的演講中對講到了雲基礎設施的特點:

  • 超大規模:細節的優化變得非常有意義(PS:即使一台伺服器節省10%的能耗,在幾十萬台的規模下經濟效益将非常可觀)
  • 需求多樣:多元度的,靈活的産品形态(PS:雲端客戶需求多樣,有的需要多核心、有的需要高主頻、有的需要大記憶體、有的需要大容量存儲空間、有的需要RDMA網絡、還有的需要GPU和專用加速闆卡)
  • 激烈競争:加速基礎設施的技術演進(PS:規格和價格的競争都是明擺着的,不能在第一時間上線最新的産品就會被客戶所抛棄)

基于這些雲基礎設施的的需求,阿裡雲提出了方升開放項目,為的是制定屬于中國的OCP(FaceBook在2011年提出)開放資料标準:COCI規範,并和業界合作夥伴一起共建雲基礎設施硬體生态。

目前能看到的一些有關方升的細節包括:

  • 機櫃規範、包括機櫃的尺寸,布線和走線規範、承重設計、支援整機櫃內建傳遞等。
  • 雲伺服器節點規範、包括業務和管理網絡前出、電源後出、節點IO前維護,冷風道維護,節點關鍵硬體接口定義,節點供電架構優化等。
  • 雲伺服器PSU(内置電源)規範、包括環境耐受能力、能效優化标準、智能運維标準等。
  • 雲伺服器性能/能效規範、包括CPU性能穩定性要求、記憶體通路性能要求、磁盤性能一緻性要求、包括闆級及整機的各種能效規範等。

方升标準的最大的使用者就是阿裡巴巴自己,通過前維護架構和優化的風道設計可以讓風扇能耗降低30%、并支援300W的CPU,從業人員在冷風道維護改善了工作環境,提升了維護效率。基于這樣的架構,阿裡巴巴可以用同一套伺服器主機闆,衍生出符合各種業務場景要求的業務機型,降低設計時間和設計成本,

基于這種伺服器架構,阿裡演化出了全閃存存儲伺服器泰山,以及大容量存儲伺服器貔貅。

為配合泰山全閃存存儲伺服器,阿裡雲還研發了自己的閃存AliFlash,實作了存儲硬體全鍊路自主掌控,提升了産品和服務的競争力。

這次聊完了資料中心的風火水電,方升、泰山、貔貅架構的伺服器,下次講講神龍和彈性計算。