Facebook運維内幕曝光：一人管理2萬台伺服器

Facebook 資料中心運維主管 Delfina Eberly

目前，Facebook 已經憑借它在網絡基礎建設上的可擴充能力成為了行業的領軍者。Facebook 資料中心運維主管 Delfina Eberly（上圖人物）在“7x24 Exchange 2013 秋季會議”上的演講中為我們透露了 Facebook 部分内部運維資料，下面我們來具體了解下。

伺服器數量驚人，一人管理 2 萬台:

Facebook 伺服器數量驚人，其硬體方面的工作重點主要放在“可服務性”上，内容也涉及伺服器的初期設計，一系列工作的目标就是為了保證資料機房的裝置維修最簡單、最省時。她介紹說，每個 Facebook 資料中心的運維從業人員管理了至少 20,000 台伺服器，其中部分員工會管理數量高達 26,000 多個的系統。

近期 Facebook 的伺服器與管理人數比又創下了新高，目前已經超過 10000:1，可以檢視文章

高擴充性

對此進行更加詳細的了解。

大資料洶湧，運維工作不輕松

在 Facebook 資料中心做運維工作并不輕松，對從業人員的能力要求很高。他們每天面對的是海量資料。

據統計，Facebook 目前擁有 11.5 億使用者，日常登入使用者約 7.2 億。每天 Facebook 使用者分享的内容達到 47.5 億條，“贊”按鈕點選次數近 45 億次。Facebook 目前存儲了 2400 億張照片，每月照片存儲容量約增加 7 PB（注，機關換算：1PB=1024TB）。

自動故障診斷系統：原為留住人才

為了管理運維工作，Facebook 已經開發了相應軟體來自動化處理日常運維任務，如 CYBORG 可自動檢測伺服器問題并進行修複。如果 CYBORG 無法自動修複檢查出的問題，系統将自動給訂單系統發送警告，并分派給資料中心從業人員，以對相應問題進行詳細追蹤與分析。

Eberly 提到，自動化工作的目标是盡量避免将技術人員派往現場解決問題，除非必須對伺服器進行現場處理。強調自動化不是因為 Facebook 對打造無人資料中心感興趣，原因在于 Facebook 重視自己的員工。

Eberly 解釋說：我們要留住人才，因為大家更喜歡高水準的任務，公司希望讓他們留下來與我們一起進步成長，這對 Facebook 來說至關重要。

“可服務性”主導伺服器設計：節時 54%

在 Facebook，運維團隊的時間與工作量是根據 Facebook 硬體設計來安排的。比方說，全部伺服器從頭開始就堅持“可服務性”這一原則來進行設計，那麼資料中心的從業人員就沒有必要老鑽機房了；伺服器被設計成無需工具就可以對磁盤群組件進行替換。這樣做的結果就是：Facebook 用來修理伺服器的時間減少了 54%。

Eberly 介紹說，Facebook 運維團隊會仔細跟蹤裝置故障率，這一資料會為公司的采購提供參考。公司的财産管理和訂單系統用序列号來跟蹤硬碟和其他元件，這友善完整了解每個硬體的生命周期。

Eberly 還提到，雖然這些系統很複雜，但并不需要太多開發者。Facebook 的運維團隊僅有 3 名軟體工程師，但他們對資料中心的工作來講至關重要。

最後

從 Eberly 的介紹中，我們可以看到 Facebook 在可擴充性網絡建設上的實力。同時，這也為行業提供了一些可參考的經驗，如：開發自動故障系統，根據“可服務性”設計基礎架構。同時，運維也是一個系統工程，需要得到其他部門的配合支援才行。

Facebook運維内幕曝光：一人管理2萬台伺服器

伺服器數量驚人，一人管理 2 萬台:

大資料洶湧，運維工作不輕松

自動故障診斷系統：原為留住人才

“可服務性”主導伺服器設計：節時 54%

最後

繼續閱讀

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

ansible配置檔案說明及ad hoc指令

vsftpd dead but subsys locked 的解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Shell程式設計——sort排序、uniq忽略重複、tr替換壓縮删除、cut指定删除字段、正規表達式元字元sort 指令uniq 指令tr 指令cut 指令正規表達式

Linxu常用指令技巧彙總

httpd服務的部署、啟動、配置和簡單優化一、部署二、啟動三、配置檔案

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

nginx 安裝錯誤資訊解決

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark