簡介
衆所周知,Databricks 主導着開源大資料社群 Apache Spark、Delta Lake 以及 ML Flow 等衆多熱門技術,而 Delta Lake 作為資料湖核心存儲引擎方案給企業帶來諸多的優勢。
《Delta Lake資料湖專題系列5講》由阿裡雲 DDI 團隊翻譯整理自大資料技術公司 Databricks 針對資料湖 Delta Lake 系列技術文章。閱讀完此系列文章可以幫助您達到入門級,對資料湖Lakehouse有整體上的認識和應用,掌握理論知識體系。
此外,阿裡雲和 Apache Spark 及 Delta Lake 的原廠 Databricks 引擎團隊合作,推出了基于阿裡雲的企業版全托管 Spark 産品——Databricks 資料洞察,該産品原生內建企業版 Delta Engine 引擎,無需額外配置,提供高性能計算能力。有興趣的同學可以搜尋` Databricks 資料洞察`或`阿裡雲 Databricks `進入官網,或者直接通路
https://www.aliyun.com/product/bigdata/spark了解詳情。
内容回顧
第一篇:
标題:
【詳談 Delta Lake 】系列技術專題 之 基礎和性能(Fundamentals and Performance)譯者: 韓宗澤(棕澤),阿裡雲計算平台事業部技術專家,負責開源大資料生态企業團隊的研發工作
目錄:
- Chapter-01 Delta Lake 基礎:為什麼可靠性和性能很重要?
- Chapter-02 深入了解事務日志(Transaction Log)
- Chapter-03 如何使用 Schema 限制(Schema Enforcement)和演變(Schema Evolution)
- Chapter-04 Delta Lake DML 文法
- Chapter-05 在 Delta Lake 中使用 Data Skipping 和 Z-Ordering 來快速處理PB級資料

第二篇:
【詳談 Delta Lake 】系列技術專題 之 特性(Features)譯者: 張鵬(卓昇),阿裡雲計算平台事業部技術專家
- Chapter-01 為什麼使用 Delta Lake 的 MERGE 功能?
- Chapter-02 使用 Python API 在 Delta Lake 資料表上進行簡單,可靠的更新和删除操作
- Chapter-03 大型資料湖的 Time Travel 功能
- Chapter-04 輕松克隆您的 Delta Lake 以友善測試,資料共享以及進行重複的機器學習
- Chapter-05 在 Apache Spark 上的 Delta Lake 中啟用 Spark SQL 的 DDL 和 DML 語句
第三篇:
【詳談 Delta Lake 】系列技術專題 之 湖倉一體( Lakehouse )- Chapter-01 什麼是湖倉一體?
- Chapter-02 深入探讨 Lakehouse 和 Delta Lake 的内部工作原理
- Chapter-03 探究 Delta Engine
第四篇:
【詳談 Delta Lake 】系列技術專題 之 Streaming(流式計算)譯者: 馮加亮(加亮),阿裡雲計算平台事業部大資料工程師
- Chapter-01 使用 Delta Lake 解決流式資料入湖的難題
- Chapter-02 使用 Delta Lake 簡化股票行情資料的分析
- Chapter-03 Tilting Point 遊戲公司是如何使用 Delta Lake 處理流資料
- Chapter-04 使用 Delta Lake 建構流媒體視訊的解決方案
第五篇:
【詳談 Delta Lake 】系列技術專題 之 客戶用例( Customer Use Case)譯者: 韓宗澤(棕澤),阿裡雲計算平台事業部技術專家,負責開源大資料生态企業團隊的研發工作
- Chapter-01 Healthdirect Australia : 使用 Databricks 提供個性化和安全的線上患者護理
- Chapter-02 Comcast:使用Delta Lake和MLflow轉換檢視器體驗
- Chapter-03 Viacom18: 從 Hadoop 遷移到 Databricks ,以提供更多吸引人的體驗
擷取更詳細的 Databricks 資料洞察相關資訊,可至産品詳情頁檢視:
阿裡巴巴開源大資料技術團隊成立 Apache Spark 中國技術社群,定期推送精彩案例,技術專家直播,隻為營造純粹的 Spark 氛圍,歡迎關注公衆号!
掃描下方二維碼入 Delta Lake 中國技術交流社群、Databricks 資料洞察産品交流釘釘群一起參與交流讨論!