《阿裡雲雲原生資料湖體系全解讀》是阿裡雲首次釋出雲原生資料湖體系,基于對象存儲OSS、資料湖建構Data Lake Formation和E-MapReduce産品的強強組合,提供存儲與計算分離架構下,涵蓋湖存儲、湖加速、湖管理和湖計算的企業級資料湖解決方案。
複制該連結到浏覽器完成下載下傳或分享: https://developer.aliyun.com/topic/download?id=900
點選免費下載下傳
>>《阿裡雲雲原生資料湖體系全解讀》<<

目錄
精彩導讀
官宣!阿裡雲重磅釋出雲原生資料湖體系
介紹如何基于阿裡雲 OSS 、JindoFS 和資料湖建構(Data Lake Formation,DLF)等基礎服務,同時結合阿裡雲上豐富的計算引擎,打造一個全新雲原生資料湖體系。
>>點選檢視更多基于OSS的EB級資料湖
資料湖無縫對接多種計算分析平台,對Hadoop生态支援良好,存儲在資料湖中的資料可以直接對其進行資料分析、處理、查詢,通過對資料深入挖掘與分析,洞察資料中蘊含的價值。
基于JindoFS+OSS建構高效資料湖
Jindo 是阿裡雲基于 Apache Spark / Apache Hadoop 在雲上定制的分布式計算和存儲引擎。Jindo 原是阿裡雲 開源大資料團隊的内部研發代号,取自筋鬥(雲)的諧音,Jindo 在開源基礎上做了大量優化和擴充,深度內建和連接配接了衆多阿裡雲基礎服務。
JindoFS緩存加速資料湖上的機器學習訓練
JindoFS提供了一個計算側的分布式緩存系統,可以有效利用計算叢集上的本地存儲資源(磁盤或者記憶體)緩存OSS上的熱資料,進而減少對OSS上資料的反複拉取,消耗網絡帶寬。
JindoTable資料湖優化與查詢加速
近幾年,資料湖架構的概念逐漸興起,很多企業都在嘗試建構資料湖。相比較大資料平台,資料湖在資料治理方面提出了更高的要求。對于資料湖場景所提出的新需求,“傳統”的大資料工具在很多方面都面臨着新的挑戰。JindoTable 正是專為解決資料湖管理結構化資料甚至是半結構化資料的痛點而設計的,包括資料治理功能和查詢加速功能。
JindoDistCp資料湖離線資料遷移最佳實踐
JindoDistCp是一個簡單易用的分布式檔案拷貝工具,目前主要用在E-Mapreduce叢集内,主要提供HDFS和S3到OSS的資料遷移服務,相比于HadoopDistCp和S3DistCp,JindoDistCp做了很多優化以及新增了許多個性化功能,并且深度結合OSS對象存儲的特性,定制化CopyCommitter,實作No-Rename拷貝,大大縮短離線資料入湖遷移時間消耗。
資料湖中繼資料服務的實作和挑戰
資料湖中繼資料服務為大資料而生,為互通生态而生,期望後續繼續完善其服務能力和支撐更多的大資料引擎,通過開放的服務能力、存儲能力、統一的權限及中繼資料管理能力,為客戶節省管理/人力/存儲等各項成本,實作客戶自己的業務價值。
多引擎內建挖掘湖上資料價值
在 EMR 叢集建立階段已經自動安裝了資料建構服務的相關SDK,同時EMR上的開源計算引擎 Spark、Hive 和 Presto 都完成了對資料湖建構服務的相容支援,是以使用者通過 EMR 引擎可獲得資料湖分析的最佳體驗。
多資料源一站式入湖
通過一站式入湖,将不同資料源的資料統一歸并到以OSS對象存儲為基礎架構的集中式資料湖存儲中,解決了企業面臨的資料孤島問題,為統一的資料分析打好了基礎。
資料湖建構服務搭配Delta Lake玩轉CDC實時入湖
Change Data Capture(CDC)用來跟蹤捕獲資料源的資料變化,并将這些變化同步到目标存儲(如資料湖或資料倉庫),用于資料備份或後續分析,同步過程可以是分鐘/小時/天等粒度,也可以是實時同步。CDC方案分為侵入式(intrusive manner)和非傾入性(non-intrusive manner)兩種。
雲原生計算引擎挑戰與解決方案
雲原生比較有前景的實作就是Kubernetes,是以有時候我們一提到雲原生,幾乎就等價于是Kubernetes。随着Kubernetes的概念越來越火,客戶也對該技術充滿了興趣,很多客戶已經把線上的業務搬到了Kubernetes之上。并且希望在這種類似作業系統上,建設一套統一的、完整的大資料基礎架構。
Serverless Spark的彈性利器 - EMR Shuffle Service
在傳統計算存儲混合的架構中,為了兼顧計算和存儲,CPU和儲存設備都不能太差,是以犧牲了靈活性,提高了成本。在計算存儲分離架構中,可以獨立配置計算機型和存儲機型,具有極大的靈活性,進而降低成本。
資料湖開發治理平台DataWorks
中繼資料管理、資料內建、資料開發是資料湖需要解決的三大問題,阿裡雲的DataWorks作為一個通用的大資料平台,除了很好的解決了數倉場景的各類問題,也同樣解決了資料湖場景中的核心痛點。
藏經閣系列電子書
阿裡雲開發者社群——藏經閣系列電子書,彙聚了一線大廠的技術沉澱精華,爆款不斷。
點選連結擷取海量免費電子書:
https://developer.aliyun.com/ebook