揭秘FaceBook Puma演變及發展——FaceBook公司的實時資料分析平台是建立在Hadoop 和Hive的基礎之上，這個根能立穩嗎？hive又是sql的Map reduce任務拆分，底層還是依賴hbase和hdfs存儲

在12月2日下午的“大資料技術與應用”分論壇的第一場演講中，來自全球知名網際網路公司——FaceBook公司的軟體工程師、研發經理邵铮就帶來了一顆重磅炸彈，他将為我們講解FaceBook公司的實時資料處理分析平台的核心——Puma的演進以及未來的發展思路。

　　FaceBook公司自成立以來發展就非常迅猛，時至今日，每天都有數以萬計的人活躍在FaceBook之上，這一龐大的使用者群體吸引了大量的企業的注意力，他們希望通過FaceBook這一平台對自己的産品或服務進行營銷，以精準找到自己的潛在使用者。要精準找到自己的客戶，必然要對FaceBook網站使用者的實時資訊進行分析，FaceBook公司提供的實時資料分析工具就凸顯出重要作用。

揭秘FaceBook Puma演變及發展——FaceBook公司的實時資料分析平台是建立在Hadoop 和Hive的基礎之上，這個根能立穩嗎？hive又是sql的Map reduce任務拆分，底層還是依賴hbase和hdfs存儲

　　據邵铮工程師介紹，FaceBook公司的實時資料分析平台是建立在Hadoop 和Hive的基礎之上的，Hadoop Hive叢集共有超過3000個節點，共同完成對資料的實時處理分析。如上圖所示，資料流通過程涉及的環節較多，每個環節的延遲都會對資料的分析處理能力産生影響，為了最大地降低延遲，盡最大可能為各個使用者提供實時查詢結果，就要盡可能低地較少每個環節的延遲。

　　邵铮工程師在本次技術課程中分享了兩個關鍵之處，一是Scribe，另一個則是Hadoop下的由Facebook公司開發改良的Puma環節。

　　邵铮工程師給我們分享了現在Facebook公司所使用的Scribe，如上圖所示。并重點給我們講解了Puma的演進與未來的發展方向。

　　上圖是邵铮工程師認為的Puma理想工作流程，但實際環境中因為各種因素的制約，實際上不太可能達到這一理想流程。

　　上圖為Puma的第二個版本，Puma2的命名是為了友善記憶和說明。但據邵铮工程師介紹，Puma同樣存在一些局限。他說，HBase的寫入速度較快，但讀取速度就相對較慢。

　　上圖為Puma3的拓撲圖，相對于Puma2，其延遲将大幅降低。據悉，Facebook公司目前對實時資料的處理分析能力在10秒多一點，但在未來将縮短到5秒甚至更短的時間。因為Facebook公司所具有的特殊性，其在未來将大幅縮短寫性能，初步預期，相比于現在，将縮短25%的總體時間。現在每個機櫃的記憶體為60GB，但在未來，其将大量部署SSD以替代記憶體，其記憶體大小将是現在的十倍，即600GB。

　　邵铮工程師表示，在未來，将對資料排程提供更好的支援，在這點上，需要對Puma進行簡單的排程，因為連續的工作負載;并且将進行大規模普及，将Hive遷移到日常的報告查詢。并且邵铮工程師透露了一個令人極度興奮的消息，這些即将開源，将免費的開放給其他工程師。

本文轉自張昺華-sky部落格園部落格，原文連結：http://www.cnblogs.com/bonelee/p/6400915.html，如需轉載請自行聯系原作者

揭秘FaceBook Puma演變及發展——FaceBook公司的實時資料分析平台是建立在Hadoop 和Hive的基礎之上，這個根能立穩嗎？hive又是sql的Map reduce任務拆分，底層還是依賴hbase和hdfs存儲

繼續閱讀

Sql優化一：sql語句優化

SQL優化SQL語句優化的目的

Nacos 2.0 更新前後性能對比壓測

JAVA高效程式設計指南

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

關于SQL語言

SQL語言基礎：常用的資料查詢語句

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

neo4j之cypher使用文檔

Ambari介紹和架構原理

NOSQL安全攻擊

sqlServer根據經緯查距離

win10本地scala和spark安裝安裝scala安裝spark