超詳攻略！Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析

開源大資料社群 & 阿裡雲 EMR 系列直播第四期

主題：Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析

講師：棕澤，阿裡雲技術專家，計算平台事業部開放平台-生态企業團隊負責人

内容架構：

Databricks 資料洞察産品介紹
功能介紹
典型場景
客戶案例
産品Demo

直播回放：掃描文章底部二維碼加入釘群觀看回放

一、Databricks 資料洞察産品介紹

1、 Databricks 公司簡介

2、什麼是阿裡雲 Databricks 資料洞察産品

01\ Databricks 公司簡介

超詳攻略！Databricks 資料洞察 - 企業級全托管 Spark 大資料分析平台及案例分析

① ApacheSpark 創始公司，也是 Spark 的最大代碼貢獻者，Spark 技術生态背後的商業公司。

在2013年，由加州大學伯克利分校 AMPLab 的創始團隊 ApacheSpark 的建立者所成立。

② 核心産品和技術，主導和推進 Spark 開源生态

ApacheSpark、DeltaLake、Koalas 、MLFlow、OneLakehousePlatform

③ 公司定位

Databricksis the Data + AI company，為客戶提供資料分析、資料工程、資料科學和人工智能方面的服務，一體化的 Lakehouse 架構
開源版本 VS 商業版本：公司絕大部分技術研發資源投入在商業化産品
多雲政策，與頂級雲服務商合作，提供資料開發、資料分析、機器學習等産品，Data+AI 一體化分析平台

④ 市場地位

科技獨角獸，行業标杆，上司Spark整體技術生态的走向及風向标
2021年最受期待的科技上市公司

02\ Databricks 公司估值及融資曆史

（來源 Databricks 官網）

① 2019年10月G輪，估值 $ 6.2 Billion

② 2021年2月初F輪，估值 $ 28 Billion

本輪融資，三大雲服務商 AWS、GCP、MSAzure 以及 Salesforce 都進行了跟投——足以看到雲廠商對 Databricks 的發展的重視
上市預期：計劃 IPO 在2021年——多方預測 Databricks 上市之時其估值可能達到350億美元，甚至是高達500億美元

03\ Databricks 和阿裡雲聯手打造的高品質 Spark 大資料分析平台

Apache Spark 背後的商業公司，Spark 創始團隊，美國科技獨角獸
在全球擁有5,000多個客戶和450多個合作夥伴，品牌認知強
2020年，在 Gartner 釋出的資料科學和機器學習（DSML）平台魔力象限報告中，位于上司者象限

04\ Databricks + 阿裡雲 = Databricks 資料洞察

産品核心：

基于商業版 Spark 的全托管大資料分析& AI 平台
内置商業版 Spark 引擎 Databricks Runtime ，在計算層面提供高效、穩定的保障
與阿裡雲産品內建互通，提供資料安全、動态擴容、監控告警等企業級特性

産品引擎與服務：

100% 相容開源 Spark，經阿裡雲與 Databricks 聯合研發性能優化
提供商業化 SLA 保障與7*24小時 Databricks 專家支援服務

DDI 産品能力核心構件

産品關鍵資訊與優勢

二、DDI 産品功能介紹

1、整體架構

2、引擎能力

3、性能

4、功能

5、成本

01\ 阿裡雲 Databricks 資料洞察 (DDI) 架構

02\ 引擎：企業級性能優化，提升計算引擎效率和資料讀寫效率

企業級高性能、穩定性、可靠性

03\ 企業級 Databricks Runtime vs 社群版 Open Source Spark

04\ 基于計算存儲分離的架構，HDFS vs OSS 成本的對比

05\ 基于 JindoFS 進行 OSS 通路優化加速，優化資料通路性能

06\ 互動式分析 Notebook ，聚集資料

優化的 Apache Zeppelin

多語言支援
Scala、Python、Spark SQL、R
互動式分析
資料可視化
內建排程能力
一站式開發平台
多使用者協作開發

07\ 資料開發作業送出 & 工作流排程

支援 jar 包送出作業及作業排程能力
支援 Spark/Spark Streaming/Notebook
不同作業類型工作流混合排程
支援排程運維、審計日志、版本控制等

08\ 豐富的資料源支援

09\ 中繼資料管理

三種中繼資料選擇的方式

三、典型場景

1、客戶存在的痛點問題及 DDI 如何解決

2、Lambda 架構到批流一體架構

3、Lakehouse 架構的演進

4、DDI 在阿裡雲中産品的組合

01\ 開源大資料平台客戶普遍存在的痛點問題

02\ Databricks 資料洞察在四大場景幫助客戶提升生産效率

03\ Delta Lake 的項目背景以及要解決的問題

04\ 大資料發展進入 Lake House 時代

05\ 使用 DDI 建構批流一體數倉，簡化複雜架構

06\ DDI 在阿裡雲産品中的組合

07\ Databricks 資料洞察典型架構

DDI 與阿裡雲産品深度內建（典型場景）

資料擷取

接收實時産生的流式資料和外部雲存儲上批量資料。

資料 ETL

持續高效地處理增量資料，支援資料的復原和删改，提供 ACID 事務性保障。

BI報表資料分析 & 互動式分析

支援 Ad hoc 查詢，Notebook 可視化分析，無縫對接多種BI分析工具。

AI資料探索

支援機器學習，Mllib 等 Spark 生态 AI 場景。

上下遊網絡打通

如上遊對接 Kafka、OSS、EMR HDFS 等等，下遊承接 Elasticsearch、RDS、OSS 存儲等。

四、典型場景客戶案例介紹

1、基智科技（STEPONE）自建上雲案例

2、工業制造頭部公司資料分析案例

客戶案例 01：基智科技（STEPONE）Databricks 上雲遷移

本架構描述利用 Databricks 資料洞察解決客戶大資料計算問題：

資料存儲：自建 Hive數倉-》OSS （降低存儲成本，同時做計算存儲分離）
大資料分析：自建 CDH -》Databricks 資料洞察（全托管 Spark ，高性能 Runtime 引擎，Notebook 互動式分析，工作流 DAG 排程， Python 庫的安裝友善等）
中繼資料：自建 CDH -》RDS MySQL 自建中繼資料庫或使用 DDI 統一進制資料庫
資料遷移：使用 DistCp 或 JindoDistCp 将資料遷移到 OSS，資料結果同步繼續使用Sqoop 定時任務

客戶成本收益分析

全托管 Spark 叢集免運維，節省人力成本（省1運維+ 1大資料，此外免去性能調優）
相比自建機器資源多了3倍，此外算上 Databricks Runtime 相比開源 spark 來說（預估3倍），整體性能提升9倍
Notebook 互動式分析+ DAG 工作流排程，提升資料開發/分析體驗
技術方案統一，計算存儲分離方案 OSS 存儲節省客戶存儲成本，并為以後資料湖、多計算架構鋪路
Delta Lake 解決了客戶增量資料更新的問題

客戶案例 02：工業制造頭部空調公司– 大資料分析方案架構

資料收集/存儲: 接收實時産生的流式資料和外部雲存儲上批量資料
資料 ETL：持續高效地處理增量資料，支援資料的復原和删改，提供 ACID 事務性保障
BI資料分析&互動式分析: 支援查詢，Notebook 可視化分析，無縫對接多種BI分析工具
資料科學：支援機器學習/深度學習
⽣态對接：如上遊對接 Kafka、OSS、EMR HDFS 等等，下遊承接 Elasticsearch、RDS、OSS 存儲等

更多精彩内容，歡迎掃描文章底部釘釘群二維碼，進群觀看直播回放哦！

擷取更詳細的 Databricks 資料洞察相關資訊，可登入以下連結，也可以直接點選閱讀全文跳轉産品詳情頁：

https://www.aliyun.com/product/bigdata/spark

（目前産品提供￥599首購試用活動，歡迎試用！）

阿裡巴巴開源大資料技術團隊成立 Apache Spark 中國技術社群，定期推送精彩案例，技術專家直播，隻為營造純粹的 Spark 氛圍，歡迎關注公衆号！

掃描下方二維碼入 Databricks 資料洞察産品交流釘釘群一起參與交流讨論，進群直接在群内觀看直播回放哦！