天天看点

BDTC PPT集萃(国外篇):Facebook、LinkedIn等分享的大数据架构

2016年12月8—10日,BDTC 2016中国大数据技术大会将在北京新云南皇冠假日酒店隆重举办。回顾以往九届的技术盛宴,CSDN特整理部分PPT精粹,分两期进行分享,一起回忆那些年曾经带动企业发展的技术热点和实战经验。

从2008年60人规模的“Hadoop in China”技术沙龙,到当下数千人规模的行业技术盛宴,九届BDTC(大数据技术大会)完整地见证了中国大数据技术与应用的变革,忠实地描绘了大数据领域内的技术热点,沉淀了无数极具价值的行业实战经验。同时,2016年12月8至10日,BDTC 2016中国大数据技术大会将一如既往的引领当前领域内的技术热点,分享行业实战经验。

为了更好地洞悉行业发展趋势,了解企业技术挑战,在BDTC 2016召开前夕,我们将带大家一起对历届大会沉淀的知识进行挖掘,分享各IT巨头在大数据领域的探索之路。

大数据为企业的发展带来巨大商机的同时,也对大数据的架构提出了严峻的挑战,这里将为大家送上历届中国大数据技术大会PPT精粹的大数据架构与系统篇(国外篇)。

Databricks公司联合创始人、Spark首席架构师辛湜:Spark发展,回顾2015,展望2016

PPT下载——2015第九届BDTC

BDTC PPT集萃(国外篇):Facebook、LinkedIn等分享的大数据架构

Databricks公司联合创始人、Spark首席架构师辛湜

Databricks公司联合创始人、Spark首席架构师辛湜带来主题为《Spark发展 :回顾2015,展望2016》的演讲,他介绍了Spark的目标是“Unified engine across data workloads and platforms”。在谈到Spark在2015年最大的改变时,他感觉应该是增加了DataFrames API。对于Spark的生态圈,他表示主要侧重三个不同的方向,一个是上层的应用,二是下层的环境,还有最重要的是连接到的数据源。

Hortonworks资深工程师、Apache HBase核心贡献者Ted Yu:HBase 1.0及2.0的最新进展

PPT下载——2014年第八届BDTC

BDTC PPT集萃(国外篇):Facebook、LinkedIn等分享的大数据架构

Ted Yu介绍HBase1.0和2.0的最新研发进展,主要包括HBase1.0、HydraBase、Phoenix二级索引及Per column family flush的变化。据他介绍,HBase1.0的重大变化包括稳定性、可用性、易用性等方面的提升,如Master 嵌入RegionServer。而HydraBase则提供99.99%或者更高的可用性,当一个集群宕掉以后,能以秒级恢复,并且做到不丢失数据,但采用的是不同的方式。

Facebook数据基础构架团队软件工程师董思颖:Facebook开发HDFS和HBase新进展

PPT下载——2012年第六届BDTC

BDTC PPT集萃(国外篇):Facebook、LinkedIn等分享的大数据架构

董思颖详细介绍了Facebook的NameNode和DataNode之间如何来实现数据增量,他以“人口普查-出生报告-死亡报告”来形象地描绘二者之间“完全报告+增量”的过程。而针对困扰业内的“如何实现NameNode不停机升级”这一问题,提供了Facebook的实现方法。在Facebook看来,HDFS和HBase是一个非常重要的基础设施,可以被用在各种不同的产品上,对于两者的使用,Facebook从数据库到实时随机读写再到实时连续读写都有很多更新,这个更新成长的过程很漫长,但是Facebook持续进行各种改进,来帮助HDFC成为一个更通用、更稳定的数据平台。

Intel大数据首席架构师戴金权:基于Spark软件栈的大数据分析

PPT下载——2014年第八届BDTC

BDTC PPT集萃(国外篇):Facebook、LinkedIn等分享的大数据架构

戴金权表示,大数据深入分析大致分为两类:类似SQL数据分析,进行关系型云运算;达到实时、快速的数据分析速度。他认为,利用Spark构建下一代大数据分析,能够为用户构建新的应用场景及新的分析应用。并举例说明Spark与SQL结构式数据结合的方式,对Hive和Parquat进行数据处理。

LinkedIn Hadoop核心团队俞晨杰:LinkedIn大数据应用和Azkaban

PPT下载 ——2013年第七届BDTC

BDTC PPT集萃(国外篇):Facebook、LinkedIn等分享的大数据架构

俞晨杰首先介绍了LinkedIn在Hadoop平台上的大数据应用,包括其数据产品和推荐平台等;然后介绍了其工作流调度平台Azkaban,详细说明了他们如何设计Azkaban来满足大数据产品及工程师设计的要求。俞晨杰表示,Azkaban最大的特色是非常强调可视化,这对于提高公司生产力是十分关键的。另外,他还提出,Azkaban的另外一个特色是支持各种各样的大数据平台,有非常好的兼容性,包括支持Hadoop 0.20、1.x和2.x;兼容Hadoop多种配置,如Hadoop security;支持Pig、Hive等SQL引擎的新旧版本兼容;最后还支持一些非Hadoop平台,如Teradata。

沃尔玛实验室核心数据科学家Zhu Tao:电子商务中的“纳米技术”

PPT下载——2014年第八届BDTC

BDTC PPT集萃(国外篇):Facebook、LinkedIn等分享的大数据架构

Zhu Tao认为,大数据在电子商务中的定义是指在每一个用户下面管理商务。正如纳米技术关注尺度很小的材料,沃尔玛电商大数据主要希望观察到每一个用户,每一个产品如何从沃尔玛流向每一个用户的,进而实现更加智慧更加优秀的用户体验。演讲期间,Zhu Tao对沃尔玛实验室的打包推荐技术进行了详细的剖析。

更多详细请查看中国大数据技术大会(BDTC)官网:http://bdtc2016.hadooper.cn

2016中国大数据技术大会(BDTC):130+位讲师,16大分论坛,中国科学院院士陈润生,美国伊利诺伊大学香槟分校(UIUC)计算机系教授翟成祥,驭势科技联合创始人、CEO吴甘沙,上交所前总工程师白硕,日本国家信息研究所所长喜连川优,百度金融研发负责人沈抖等专家将亲临2016中国大数据技术大会。【抢票】

BDTC PPT集萃(国外篇):Facebook、LinkedIn等分享的大数据架构

继续阅读