在12月2日下午的“大資料技術與應用”分論壇的第一場演講中,來自全球知名網際網路公司——FaceBook公司的軟體工程師、研發經理邵铮就帶來了一顆重磅炸彈,他将為我們講解FaceBook公司的實時資料處理分析平台的核心——Puma的演進以及未來的發展思路。
FaceBook公司自成立以來發展就非常迅猛,時至今日,每天都有數以萬計的人活躍在FaceBook之上,這一龐大的使用者群體吸引了大量的企業的注意力,他們希望通過FaceBook這一平台對自己的産品或服務進行營銷,以精準找到自己的潛在使用者。要精準找到自己的客戶,必然要對FaceBook網站使用者的實時資訊進行分析,FaceBook公司提供的實時資料分析工具就凸顯出重要作用。

據邵铮工程師介紹,FaceBook公司的實時資料分析平台是建立在Hadoop 和Hive的基礎之上的,Hadoop Hive叢集共有超過3000個節點,共同完成對資料的實時處理分析。如上圖所示,資料流通過程涉及的環節較多,每個環節的延遲都會對資料的分析處理能力産生影響,為了最大地降低延遲,盡最大可能為各個使用者提供實時查詢結果,就要盡可能低地較少每個環節的延遲。
邵铮工程師在本次技術課程中分享了兩個關鍵之處,一是Scribe,另一個則是Hadoop下的由Facebook公司開發改良的Puma環節。
邵铮工程師給我們分享了現在Facebook公司所使用的Scribe,如上圖所示。并重點給我們講解了Puma的演進與未來的發展方向。
上圖是邵铮工程師認為的Puma理想工作流程,但實際環境中因為各種因素的制約,實際上不太可能達到這一理想流程。
上圖為Puma的第二個版本,Puma2的命名是為了友善記憶和說明。但據邵铮工程師介紹,Puma同樣存在一些局限。他說,HBase的寫入速度較快,但讀取速度就相對較慢。
上圖為Puma3的拓撲圖,相對于Puma2,其延遲将大幅降低。據悉,Facebook公司目前對實時資料的處理分析能力在10秒多一點,但在未來将縮短到5秒甚至更短的時間。因為Facebook公司所具有的特殊性,其在未來将大幅縮短寫性能,初步預期,相比于現在,将縮短25%的總體時間。現在每個機櫃的記憶體為60GB,但在未來,其将大量部署SSD以替代記憶體,其記憶體大小将是現在的十倍,即600GB。
邵铮工程師表示,在未來,将對資料排程提供更好的支援,在這點上,需要對Puma進行簡單的排程,因為連續的工作負載;并且将進行大規模普及,将Hive遷移到日常的報告查詢。并且邵铮工程師透露了一個令人極度興奮的消息,這些即将開源,将免費的開放給其他工程師。
本文轉自張昺華-sky部落格園部落格,原文連結:http://www.cnblogs.com/bonelee/p/6400915.html,如需轉載請自行聯系原作者