【云栖大会】再谈开源大数据

2021-11-07 12:44:03

2016杭州云栖大会在云栖小镇召开，本届大会以“飞天･进化”为主题，内容规模比去年翻倍，从原本2天的议程增加至4天，从10月13日持续到16日，超过400场主题演讲使开发者们对阿里云计算生态发展和应用趋势、前沿技术和产品有了更深刻的了解。

阿里在09年就开始尝试使用hadoop技术，先后包括hadoop、spark、hbase及jtorm，这些开源技术在不同的业务线广泛使用，推动阿里业务的发展。本论坛第一次聚集了阿里hadoop、spark、hbase、jtorm各领域的技术专家，讲述hadoop生态的过去现在未来及阿里在hadoop大生态领域的实践与探索。本论坛还发布了阿里云e-mapreduce交互式产品。

在2016杭州云栖大会第四天的“开源大数据技术专场”分会场上，范文臣、intel 研发经理郑锴、逸晗网络科技大数据平台负责人杨智、 intel技术专家毛玮、阿里云技术专家木艮围绕开源大数据技术为大家哦做了精彩的分享。

范文臣：deep dive into catalyst

本次演讲范文臣从 catalyst 的基本概念开始，深入讲解了 catalyst 提供了哪些主要特性来支持 spark 的 api 抽象。

郑锴：hdfs下一步新思考：在支持了纠删码之后

郑锴首先回顾了最近一两年hadoop社区对hdfs 纠删码的支持，介绍ec对用户的价值，适用场景和部署建议。然后重点思考了hadoop社区在hdfs上面接下来会怎么走，介绍当前在做的几个重要特性，探讨大数据存储的发展趋势，同时也希望跟用户有效互动得到更多反馈。

杨智：梨视频基于e-mapreduce大数据推荐系统

内容包括逸晗网络科技的数据实时统计、数据处理平台、推荐实时反馈、推荐模型&排序机器学习模型训练和更新等。

毛玮：分布式流处理框架:功能对比及性能评估

毛玮从流处理的核心概念，到功能的完备性，全方位对比了目前比较热门的流处理框架：spark streaming, flink，storm和gearpump。同时从吞吐量个延时两个方面，对各个平台进行了性能评估。

木艮：hadoop存储与计算分离实践

为什么需要存储计算分离、分离后的性能怎么样，做了哪些优化，适应哪些场景？是木艮在本次演讲中告诉我们的内容。

【云栖大会】再谈开源大数据

继续阅读

Sql优化一：sql语句优化

Nacos 2.0 升级前后性能对比压测

hadoop 用MR实现join操作

Centos7 下 Hadoop 2.6.4 分布式集群环境搭建摘要集群准备安装JDK 安装 Hadoop 2.6.4 部署 slaver1-slaver4 启动 hadoop 集群成功了

尚硅谷—韩顺平—图解 Java设计模式（结构型）（55～）

Storm编译打包过程中遇到的一些问题及解决方法

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

9.spark Core 进阶2--Cashe

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

浅谈企业活动中进行数据分析的重要性

ubuntu14.04下安装hbse1.0.1.1

User Defined Hadoop DataType

Ambari介绍和架构原理

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

NOSQL安全攻击

win10本地scala和spark安装安装scala安装spark