天天看點

BDTC PPT集萃(國外篇):Facebook、LinkedIn等分享的大資料架構

2016年12月8—10日,BDTC 2016中國大資料技術大會将在北京新雲南皇冠假日酒店隆重舉辦。回顧以往九屆的技術盛宴,CSDN特整理部分PPT精粹,分兩期進行分享,一起回憶那些年曾經帶動企業發展的技術熱點和實戰經驗。

從2008年60人規模的“Hadoop in China”技術沙龍,到當下數千人規模的行業技術盛宴,九屆BDTC(大資料技術大會)完整地見證了中國大資料技術與應用的變革,忠實地描繪了大資料領域内的技術熱點,沉澱了無數極具價值的行業實戰經驗。同時,2016年12月8至10日,BDTC 2016中國大資料技術大會将一如既往的引領目前領域内的技術熱點,分享行業實戰經驗。

為了更好地洞悉行業發展趨勢,了解企業技術挑戰,在BDTC 2016召開前夕,我們将帶大家一起對曆屆大會沉澱的知識進行挖掘,分享各IT巨頭在大資料領域的探索之路。

大資料為企業的發展帶來巨大商機的同時,也對大資料的架構提出了嚴峻的挑戰,這裡将為大家送上曆屆中國大資料技術大會PPT精粹的大資料架構與系統篇(國外篇)。

Databricks公司聯合創始人、Spark首席架構師辛湜:Spark發展,回顧2015,展望2016

PPT下載下傳——2015第九屆BDTC

BDTC PPT集萃(國外篇):Facebook、LinkedIn等分享的大資料架構

Databricks公司聯合創始人、Spark首席架構師辛湜

Databricks公司聯合創始人、Spark首席架構師辛湜帶來主題為《Spark發展 :回顧2015,展望2016》的演講,他介紹了Spark的目标是“Unified engine across data workloads and platforms”。在談到Spark在2015年最大的改變時,他感覺應該是增加了DataFrames API。對于Spark的生态圈,他表示主要側重三個不同的方向,一個是上層的應用,二是下層的環境,還有最重要的是連接配接到的資料源。

Hortonworks資深工程師、Apache HBase核心貢獻者Ted Yu:HBase 1.0及2.0的最新進展

PPT下載下傳——2014年第八屆BDTC

BDTC PPT集萃(國外篇):Facebook、LinkedIn等分享的大資料架構

Ted Yu介紹HBase1.0和2.0的最新研發進展,主要包括HBase1.0、HydraBase、Phoenix二級索引及Per column family flush的變化。據他介紹,HBase1.0的重大變化包括穩定性、可用性、易用性等方面的提升,如Master 嵌入RegionServer。而HydraBase則提供99.99%或者更高的可用性,當一個叢集宕掉以後,能以秒級恢複,并且做到不丢失資料,但采用的是不同的方式。

Facebook資料基礎構架團隊軟體工程師董思穎:Facebook開發HDFS和HBase新進展

PPT下載下傳——2012年第六屆BDTC

BDTC PPT集萃(國外篇):Facebook、LinkedIn等分享的大資料架構

董思穎詳細介紹了Facebook的NameNode和DataNode之間如何來實作資料增量,他以“人口普查-出生報告-死亡報告”來形象地描繪二者之間“完全報告+增量”的過程。而針對困擾業内的“如何實作NameNode不停機更新”這一問題,提供了Facebook的實作方法。在Facebook看來,HDFS和HBase是一個非常重要的基礎設施,可以被用在各種不同的産品上,對于兩者的使用,Facebook從資料庫到實時随機讀寫再到實時連續讀寫都有很多更新,這個更新成長的過程很漫長,但是Facebook持續進行各種改進,來幫助HDFC成為一個更通用、更穩定的資料平台。

Intel大資料首席架構師戴金權:基于Spark軟體棧的大資料分析

PPT下載下傳——2014年第八屆BDTC

BDTC PPT集萃(國外篇):Facebook、LinkedIn等分享的大資料架構

戴金權表示,大資料深入分析大緻分為兩類:類似SQL資料分析,進行關系型雲運算;達到實時、快速的資料分析速度。他認為,利用Spark建構下一代大資料分析,能夠為使用者建構新的應用場景及新的分析應用。并舉例說明Spark與SQL結構式資料結合的方式,對Hive和Parquat進行資料處理。

LinkedIn Hadoop核心團隊俞晨傑:LinkedIn大資料應用和Azkaban

PPT下載下傳 ——2013年第七屆BDTC

BDTC PPT集萃(國外篇):Facebook、LinkedIn等分享的大資料架構

俞晨傑首先介紹了LinkedIn在Hadoop平台上的大資料應用,包括其資料産品和推薦平台等;然後介紹了其工作流排程平台Azkaban,詳細說明了他們如何設計Azkaban來滿足大資料産品及工程師設計的要求。俞晨傑表示,Azkaban最大的特色是非常強調可視化,這對于提高公司生産力是十分關鍵的。另外,他還提出,Azkaban的另外一個特色是支援各種各樣的大資料平台,有非常好的相容性,包括支援Hadoop 0.20、1.x和2.x;相容Hadoop多種配置,如Hadoop security;支援Pig、Hive等SQL引擎的新舊版本相容;最後還支援一些非Hadoop平台,如Teradata。

沃爾瑪實驗室核心資料科學家Zhu Tao:電子商務中的“納米技術”

PPT下載下傳——2014年第八屆BDTC

BDTC PPT集萃(國外篇):Facebook、LinkedIn等分享的大資料架構

Zhu Tao認為,大資料在電子商務中的定義是指在每一個使用者下面管理商務。正如納米技術關注尺度很小的材料,沃爾瑪電商大資料主要希望觀察到每一個使用者,每一個産品如何從沃爾瑪流向每一個使用者的,進而實作更加智慧更加優秀的使用者體驗。演講期間,Zhu Tao對沃爾瑪實驗室的打包推薦技術進行了詳細的剖析。

更多詳細請檢視中國大資料技術大會(BDTC)官網:http://bdtc2016.hadooper.cn

2016中國大資料技術大會(BDTC):130+位講師,16大分論壇,中國科學院院士陳潤生,美國伊利諾伊大學香槟分校(UIUC)計算機系教授翟成祥,馭勢科技聯合創始人、CEO吳甘沙,上交所前總工程師白碩,日本國家資訊研究所所長喜連川優,百度金融研發負責人沈抖等專家将親臨2016中國大資料技術大會。【搶票】

BDTC PPT集萃(國外篇):Facebook、LinkedIn等分享的大資料架構

繼續閱讀