天天看點

加強雲服務:解鎖Google資料中心的秘密

最近,在舊金山召開的google cloud next大會上,這家網際網路搜尋引擎巨頭展示了其如何保護、營運其日益增長的雲資料中心,并對這些資料中心進行壓力測試。

鑒于谷歌這家超大規模的雲計算服務巨頭的資料中心所需要支援的龐大使用者群和數量衆多的服務,推動了許多提供商試圖破解谷歌公司如何在全球範圍内連接配接起其所運作的海量基礎設施的設計規則手冊。

他們傾向于建立多個龐大的園區式伺服器場,而不是建構單一的獨立設施來備份到另一處地理位置的資料中心,進而也就不需要任何單點故障來防範停機。

超大規模的營運商們通常選擇采用瞄準了特定工作負載所定制的硬體,并大量購買,以確定當越來越多的使用者湧向他們的服務時,他們看起來具有無限的能力來應對這些處理需求。

前段時間,在舊金山舉行的google cloud next大會上,這家網際網路搜尋引擎巨頭坦誠的分享了一些關于他們如何確定自己的資料中心以可持續,高效,有彈性,安全和快速的方式運作的工作的見解。

google在資料中心可持續發展方面的努力的成效可以說是有目共睹的,2017年,該公司已經實作了其全部資料中心資産均100%使用可再生能源的承諾願景。

據computer weekly網站較早前的報道稱,該公司最近也在積極的探索如何利用其deepmind部門的人工智能專長來削減其整體資料中心的電源使用效率(pue)值。

該公司所作出的另一項承諾是:在2017年的每個月,他們都将開放一個新的資料中心區域。在google cloud next大會上,該公司還宣布了從2017到2018年期間,将在荷蘭、加拿大和美國加州進行額外投資建設的項目計劃。

屆時,該公司将在全球範圍内的資料中心地理區域分布共計将達到16處,其中包括50個可用區域,以及100多處資料中心站點。

托管以消費者為中心的服務

除了站堅守其google雲平台(gcp)及其業務生産力工具g suiter套件之外,這些資料中心也與托管其以消費者為中心的服務(如搜尋引擎和youtube)相同,這些服務構成了幾乎每位網絡使用者的支柱網際網路體驗。

為此,該公司的資料中心基礎設施被設計用于旨在確定使用者在任何時候都能夠盡可能高效地使用,google cloud技術基礎設施進階副總裁urs hlzle在大會第二天的主題演講中提到。

他說:“我們設計了基礎設施的各個環節,使您能夠獲得獨一無二的成效,并充分享受到我們所創造的傑出性能。”

“你必須優化每一個元素。從高效的資料中心到定制的伺服器,從定制的網絡裝置到軟體定義的全球骨幹網絡,再到用于機器學習的應用程式專用內建電路(asic)。

在過去三年中,該公司投資了300億美元,建立了一款有彈性和響應能力的基礎設施,這是由巨大的網絡容量能力所支撐的。

“分析師稱,我們的網絡流量占全球網際網路使用者總流量的25-40%。” hlzle說:“作為一家gcp或g suite客戶,您企業将可以從這個網絡中受益,因為您企業的流量是在我們私有的、超高速骨幹網進行傳輸,達到了最小的延遲。”

“為了把這個流量傳輸到世界各地,我們也需要跨越海洋進行傳輸。九年前,google就已經成為了第一家建立起海底電纜的非電信公司。那就是從美國到日本的海底電纜,從那時起,我們已經在全球範圍内廣泛建造或收購海底光纖容量,是以我們幾乎在任何地方都有備援的骨幹網。”

提高硬體性能

google資料中心副總裁joe kava在展會倒數第二天的演講展示上向與會者們介紹了關于該公司如何建立其伺服器場的幕後細節。

盡管假設該公司必須采取一刀切的方式來實作資料中心的建設是合乎邏輯的,但事實并非如此,每處資料中心的位置都會對設計和設定構成極大的影響。

kava表示:“我們已經在開創和研發先進的基于水的冷卻系統方面取得了進步,如海水冷卻、再循環灰水冷卻、暴雨收集和再利用、雨水收集,工業運河用水和熱能儲存等。

“我們還設計了根本不需要消耗任何水就能實施冷卻的資料中心。相反,他們100%采用室外的空氣冷卻。關鍵是并沒有一套适合所有資料中心模型的一刀切的模式。

他補充說:“我們所有的資料中心設計都是針對特定地區而定制的,以達到最佳效率。”

像許多其他超大規模雲計算公司一樣,基于成本和性能方面的原因,該公司傾向于使用定制化的硬體,而kava則指出,如果不這樣做,該公司将難以滿足使用者對其服務的需求。

他說:“我們幾乎所有的基礎設施都是按照我們自己的計算需求進行定制設計和專門設計的,所有這些都是為了提供最高的性能而進行協調和優化的。”

“我們的伺服器沒有任何不必要的元件,如視訊卡,晶片組或外圍裝置連接配接器,這些不必要的元件可能會帶來漏洞,而我們的生産伺服器運作一款定制設計和剝離版本的linux系統。而我們的伺服器和作業系統僅用于為google服務提供服務。”

在第二天的主題演講中,該公司還宣布了他們是世界上第一家部署英特爾xeon處理器的雲提供商的消息,其技術在skylake的基礎架構中被公認為skylake,hlzle表示,此舉将展示該公司對性能改進的承諾。

他表示:“我們正在從多個次元方向上推動性能方面的改進,這意味着我們的工作必須要有很大的不同,skylake為計算密集型工作負載提供了很好的性能表現。”

定制的雲基礎設施

kava承認,當他九年前第一次加盟該公司時,還對為什麼公司在基礎設施方面需要如此高的定制化來提供服務感到困惑?

他說:“很快,我就了解到,我們所進行的是相當非凡的工作,因為當我們開始時,我們所需要的規模并不存在。”

“為了實作性能,效率和目标價格,我們必須建立自己的伺服器,開發和建立可靠性的硬體、軟體和文化,以使google能夠取得成功。”

自從2016年3月以來,google一直積極參與facebook支援的開放式計算項目(ocp)計劃,并提出了與49伏機架系統相關的設計,并将其站點包裝起來。

“我們也在資料中心投入了大量的機器人方面的研發創新。我們的每個資料中心都有全自動的磁盤擦除環境,可以實作更快,更高的吞吐量,更高效和更好的庫存管理。”他補充說。

這并不是說,人們在保持谷歌的資料中心資産順利營運方面沒有起到任何作用,因為該公司必須保證提供24小時全天候不間斷的支援。kava說。

“我們擁有自己的google員工隊伍,他們通過設計,施工,調試和營運等方面的密切配合。到任何地方,他們都是最好最聰明的工程師和操作人員。”他說。

“其中許多員工來自關鍵任務環境,如海軍核潛艇計劃,而在這樣的計劃中,一旦發生錯誤,後果可能是災難性的。他們了解任務是至關重要的。”

鑒于2017年2月底,amazon web services(aws)的簡單存儲服務(s3)曾發生過3小時39分鐘的中斷事故,究其原因是工程輸入錯誤, kava也相當熱衷的指出google的基礎設施是如何不受人為錯誤影響的。

“因為我們所擁有的傑出的設計和高素質的從業人員,隻有一小部分的問題是人為錯誤有關的,而在那些人為錯誤有關的問題中,從來沒有一例在我們的資料中心造成過停機中斷。”

鎖定資料中心

每當唱反調的人看到公衆對雲計算公司所提供的安全性提出疑問時,通常的反駁會拿供應商們所擁有的财務和人力資源與其日常企業組織相比較。

google則認為,這已經是一種過時的追求方法,而在主題演講中,hlzle強調,該公司所營運的一處資料中心園區有175名保安人員負責每年365天全天候24小時的值班。

反過來,這又由相機,運動傳感器,虹膜掃描器和基于雷射的入侵檢測系統提供支援,這些系統都旨在防止無關人員進入資料中心。

hlzle在這一演講上釋出了google的titan晶片,該晶片适用于所有企業的新的資料中心伺服器。

“我們在所有新機器上都安裝了這一安全晶片,以作為機器身份信任的基礎。這款晶片是由google設計的,有助于保護伺服器免受篡改,甚至在bios的級别。”他說。

“這有助于我們對硬體裝置進行身份驗證,除此之外,還可以幫助我們實施認證服務,因為他們互相調用,他們必須互相證明自己的身份。”

該公司還采用了一種新穎的方法,用來確定其安全防範最終能夠勝任,kava在演講結束後的互動交流問答期間表示。

這可以看出,該公司在這一新穎的方法中隐瞞了現有的google員工的資訊,并為此打破了其資料中心的安全防範,確定他們能夠承受内部的安全威脅。

“如果有任何人知道您資料中心的弱點在哪裡,以及如何利用這些漏洞的話,那麼這些人肯定是你企業自己的員工。他們不會告訴任何同僚他們被招募到該方法項目中了,而他們會試圖做你不能做到的事情。”他說。

kava說:“如果有一個漏洞被暴露,那麼其在全球範圍内就會得到修補改正。而如果沒有發現任何新的漏洞,也許足夠了。我們還沒有達到這一點。顯然,我們還任重而道遠,要做的事還有很多!

本文轉自d1net(轉載)

繼續閱讀