天天看點

超詳攻略!Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析

開源大資料社群 & 阿裡雲 EMR 系列直播 第四期

主題:Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析

講師:棕澤,阿裡雲技術專家,計算平台事業部開放平台-生态企業團隊負責人

内容架構:

  • Databricks 資料洞察産品介紹
  • 功能介紹
  • 典型場景
  • 客戶案例
  • 産品Demo

直播回放:掃描文章底部二維碼加入釘群觀看回放

一、Databricks 資料洞察産品介紹

1、 Databricks 公司簡介

2、 什麼是阿裡雲 Databricks 資料洞察産品

01\ Databricks 公司簡介

超詳攻略!Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析
① ApacheSpark 創始公司,也是 Spark 的最大代碼貢獻者,Spark 技術生态背後的商業公司。

在2013年,由加州大學伯克利分校 AMPLab 的創始團隊 ApacheSpark 的建立者所成立。

② 核心産品和技術,主導和推進 Spark 開源生态

ApacheSpark、DeltaLake、Koalas 、MLFlow、OneLakehousePlatform

③ 公司定位
  • Databricksis the Data + AI company,為客戶提供資料分析、資料工程、資料科學和人工智能方面的服務,一體化的 Lakehouse 架構
  • 開源版本 VS 商業版本:公司絕大部分技術研發資源投入在商業化産品
  • 多雲政策,與頂級雲服務商合作,提供資料開發、資料分析、機器學習等産品,Data+AI 一體化分析平台
④ 市場地位
  • 科技獨角獸,行業标杆,上司Spark整體技術生态的走向及風向标
  • 2021年最受期待的科技上市公司

02\ Databricks 公司估值及融資曆史

(來源 Databricks 官網)

① 2019年10月G輪,估值 $ 6.2 Billion
② 2021年2月初F輪,估值 $ 28 Billion
  • 本輪融資,三大雲服務商 AWS、GCP、MSAzure 以及 Salesforce 都進行了跟投——足以看到雲廠商對 Databricks 的發展的重視
  • 上市預期:計劃 IPO 在2021年——多方預測 Databricks 上市之時其估值可能達到350億美元,甚至是高達500億美元
超詳攻略!Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析

03\ Databricks 和阿裡雲聯手打造的高品質 Spark 大資料分析平台

超詳攻略!Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析
  • Apache Spark 背後的商業公司,Spark 創始團隊,美國科技獨角獸
  • 在全球擁有5,000多個客戶和450多個合作夥伴,品牌認知強
  • 2020年,在 Gartner 釋出的資料科學和機器學習(DSML)平台魔力象限報告中,位于上司者象限
超詳攻略!Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析
超詳攻略!Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析

04\ Databricks + 阿裡雲 = Databricks 資料洞察

超詳攻略!Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析
産品核心:
  • 基于商業版 Spark 的全托管大資料分析& AI 平台
  • 内置商業版 Spark 引擎 Databricks Runtime ,在計算層面提供高效、穩定的保障
  • 與阿裡雲産品內建互通,提供資料安全、動态擴容、監控告警等企業級特性
産品引擎與服務:
  • 100% 相容開源 Spark,經阿裡雲與 Databricks 聯合研發性能優化
  • 提供商業化 SLA 保障與7*24小時 Databricks 專家支援服務
超詳攻略!Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析
DDI 産品能力核心構件
超詳攻略!Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析
産品關鍵資訊與優勢
超詳攻略!Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析

二、DDI 産品功能介紹

1、整體架構

2、引擎能力

3、性能

4、功能

5、成本

01\ 阿裡雲 Databricks 資料洞察 (DDI) 架構

超詳攻略!Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析

02\ 引擎:企業級性能優化,提升計算引擎效率和資料讀寫效率

企業級高性能、穩定性、可靠性

超詳攻略!Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析

03\ 企業級 Databricks Runtime vs 社群版 Open Source Spark

超詳攻略!Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析

04\ 基于計算存儲分離的架構,HDFS vs OSS 成本的對比

超詳攻略!Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析

05\ 基于 JindoFS 進行 OSS 通路優化加速,優化資料通路性能

超詳攻略!Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析

06\ 互動式分析 Notebook ,聚集資料

優化的 Apache Zeppelin

  • 多語言支援
  • Scala、Python、Spark SQL、R
  • 互動式分析
  • 資料可視化
  • 內建排程能力
  • 一站式開發平台
  • 多使用者協作開發
超詳攻略!Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析

07\ 資料開發作業送出 & 工作流排程

  • 支援 jar 包送出作業及作業排程能力
  • 支援 Spark/Spark Streaming/Notebook
  • 不同作業類型工作流混合排程
  • 支援排程運維、審計日志、版本控制等
超詳攻略!Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析

08\ 豐富的資料源支援

超詳攻略!Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析

09\ 中繼資料管理

三種中繼資料選擇的方式

超詳攻略!Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析

三、典型場景

1、客戶存在的痛點問題及 DDI 如何解決

2、Lambda 架構到批流一體架構

3、Lakehouse 架構的演進

4、DDI 在阿裡雲中産品的組合

01\ 開源大資料平台客戶普遍存在的痛點問題

超詳攻略!Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析

02\ Databricks 資料洞察在四大場景幫助客戶提升生産效率

超詳攻略!Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析

03\ Delta Lake 的項目背景以及要解決的問題

超詳攻略!Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析

04\ 大資料發展進入 Lake House 時代

超詳攻略!Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析

05\ 使用 DDI 建構批流一體數倉,簡化複雜架構

超詳攻略!Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析
超詳攻略!Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析

06\ DDI 在阿裡雲産品中的組合

超詳攻略!Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析

07\ Databricks 資料洞察典型架構

DDI 與阿裡雲産品深度內建(典型場景)

資料擷取
  • 接收實時産生的流式資料和外部雲存儲上批量資料。
資料 ETL
  • 持續高效地處理增量資料,支援資料的復原和删改,提供 ACID 事務性保障。
BI報表資料分析 & 互動式分析
  • 支援 Ad hoc 查詢,Notebook 可視化分析,無縫對接多種BI分析工具。
AI資料探索
  • 支援機器學習,Mllib 等 Spark 生态 AI 場景。
上下遊網絡打通
  • 如上遊對接 Kafka、OSS、EMR HDFS 等等,下遊承接 Elasticsearch、RDS、OSS 存儲等。

四、典型場景客戶案例介紹

1、基智科技(STEPONE)自建上雲案例

2、工業制造頭部公司資料分析案例

客戶案例 01:基智科技(STEPONE)Databricks 上雲遷移

本架構描述利用 Databricks 資料洞察 解決客戶大資料計算問題:

  • 資料存儲:自建 Hive數倉-》OSS (降低存儲成本,同時做計算存儲分離)
  • 大資料分析:自建 CDH -》Databricks 資料洞察(全托管 Spark ,高性能 Runtime 引擎,Notebook 互動式分析,工作流 DAG 排程, Python 庫的安裝友善等)
  • 中繼資料:自建 CDH -》RDS MySQL 自建中繼資料庫或使用 DDI 統一進制資料庫
  • 資料遷移:使用 DistCp 或 JindoDistCp 将資料遷移到 OSS,資料結果同步繼續使用Sqoop 定時任務
超詳攻略!Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析

客戶成本收益分析

  • 全托管 Spark 叢集免運維,節省人力成本(省1運維+ 1大資料,此外免去性能調優)
  • 相比自建機器資源多了3倍,此外算上 Databricks Runtime 相比開源 spark 來說(預估3倍),整體性能提升9倍
  • Notebook 互動式分析+ DAG 工作流排程,提升資料開發/分析體驗
  • 技術方案統一,計算存儲分離方案 OSS 存儲節省客戶存儲成本,并為以後資料湖、多計算架構鋪路
  • Delta Lake 解決了客戶增量資料更新的問題
超詳攻略!Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析

客戶案例 02:工業制造頭部空調公司– 大資料分析方案架構

  • 資料收集/存儲: 接收實時産生的流式資料和外部雲存儲上批量資料
  • 資料 ETL:持續高效地處理增量資料,支援資料的復原和删改,提供 ACID 事務性保障
  • BI資料分析&互動式分析: 支援查詢,Notebook 可視化分析,無縫對接多種BI分析工具
  • 資料科學:支援機器學習/深度學習
  • ⽣态對接:如上遊對接 Kafka、OSS、EMR HDFS 等等,下遊承接 Elasticsearch、RDS、OSS 存儲等
超詳攻略!Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析

更多精彩内容,歡迎掃描文章底部釘釘群二維碼,進群觀看直播回放哦!

擷取更詳細的 Databricks 資料洞察相關資訊,可登入以下連結,也可以直接點選閱讀全文跳轉産品詳情頁:

https://www.aliyun.com/product/bigdata/spark

(目前産品提供¥599首購試用活動,歡迎試用!)

阿裡巴巴開源大資料技術團隊成立 Apache Spark 中國技術社群,定期推送精彩案例,技術專家直播,隻為營造純粹的 Spark 氛圍,歡迎關注公衆号!

掃描下方二維碼入 Databricks 資料洞察産品交流釘釘群一起參與交流讨論,進群直接在群内觀看直播回放哦!

超詳攻略!Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析

繼續閱讀