天天看點

關于雲原生分布式計算和存儲引擎JindoFS,看這一篇就夠了

Jindo 的由來

EMR Jindo 是阿裡雲基于 Apache Spark / Apache Hadoop 在雲上定制的分布式計算和存儲引擎。Jindo 原是内部的研發代号,取自筋鬥(雲)的諧音,EMR Jindo 在開源基礎上做了大量優化和擴充,深度內建和連接配接了衆多阿裡雲基礎服務。阿裡雲 EMR (E-MapReduce) 在 TPC 官方送出的 TPCDS 成績,也是使用 Jindo 送出的。

以上摘自

【JindoFS概述:雲原生的大資料計算存儲分離方案】

阿裡巴巴計算平台事業部 EMR 技術專家誠曆向我們闡述了 Jindo FS的前世今生。

JindoFS 介紹

JindoFS 主要包含兩個服務元件:Namespace的服務以及Storage 服務,Namespace服務主要JindoFS 中繼資料管理以及 Storage 服務的管理, Storage 服務主要負責 使用者資料的管理包含本地資料的管理和OSS上資料的管理, JindoFS是雲原生的檔案系統,可以提供本地存儲的性能以及OSS的超大容量。

【JindoFS解析 - 雲上大資料高性能資料湖存儲方案】

阿裡巴巴計算平台事業部EMR團隊技術專家辰石在本文中介紹了EMR Jindo 的技術存儲分離方案

多樣的存儲選擇

在阿裡雲上,大資料存儲主要有三種選擇,分别為Hadoop HDFS、Alibaba HDFS和OSS。Hadoop HDFS有三種存儲方式,EBS雲盤存儲資料可靠,但是背景有多個資料副本,是以成本較高,同時通過網絡擷取資料性能較低;D1本地磁盤以及I1/I2本地詞盤性能比較高,成本也比較低,但是資料容易丢失,并且運維成本較高。另外一種選擇是Alibaba HDFS,這種方式資料可靠,成本中等,并且資料全部通過網絡傳輸,沒有本地計算。OSS标準存儲經過阿裡巴巴的改造和優化之後可以直接在Hadoop中進行讀寫,這就是所謂的NativeOSS,NativeOSS存儲資料可靠,成本較低,并且通用性比較好,但是性能比較低。是以,進一步在NativeOSS上進行了強化,實作了JindoFS,JindoFS做到了資料可靠,成本較低,性能高并且通用性較好,但是需要額外的存儲成本。

【助力雲上開源生态 - 阿裡雲開源大資料平台的發展】

在2019杭州雲栖大會大資料生态專場上,阿裡巴巴進階産品專家雷飙為大家分享了阿裡雲的大資料生态發展現狀。

EMR JindoFS背景

計算存儲分離已經成為雲計算的一種發展趨勢。在計算存儲分離之前,普遍采用的是傳統的計算存儲互相融合的架構(下圖左側),但是這種架構存在一定的問題,比如在叢集擴容的時候會面臨計算能力和存儲能力互相不比對的問題。使用者在某些情況下隻需要擴容計算能力或者存儲能力,而傳統的融合架構不能滿足使用者的這種需求,進行單獨的擴充計算或者存儲能力;其次在縮容的時候可能會遇到人工幹預,人工幹預完後需要保證資料在多個節點中同步,而當有多個副本需要同步時候,可能會造成的資料丢失。而計算存儲分離架構(下圖右側)則可以很好的解決這些問題,使得使用者隻需要關心整個叢集的計算能力。

【JindoFS: 雲上大資料的高性能資料湖存儲方案】

在2019杭州雲栖大會大資料生态專場,阿裡巴巴計算平台事業部EMR團隊技術專家辰石向大家分享了雲上大資料的高性能資料湖存儲方案JindoFS的産生背景、架構

JindoFS - 分層存儲

JindoFS 無論是Cache 模式還是Block 模式都提供資料本地備份來加速業務資料的通路,而資料的可靠性和可用性主要由後端存儲OSS 提供,JindoFS 分層存儲中冷資料存放主要依賴OSS 提供存儲類型來提供,OSS 可以提供存儲類型分為三種類型:标準存儲類型,低頻通路存儲類型,歸檔存儲類型。

【JindoFS - 分層存儲】

阿裡巴巴計算平台事業部EMR團隊技術專家辰山介紹了這一功能。 JindoFS 存儲内部是通過分層存儲來降低這部分冷資料的存儲成本,提高熱資料的通路性能。

Spark Relational Cache特點

阿裡雲EMR是一個開源大資料解決方案,目前EMR上面已經內建了很多開源元件,并且元件數量也在不斷的增加中。EMR下層可以通路各種各樣的存儲,比如對象存儲OSS、叢集内部自建的HDFS以及流式資料等。使用者可以利用EMR處理海量資料和進行快速分析,也能夠支援使用者在上面做機器學習以及資料清洗等工作。EMR希望能夠支撐非常大的業務資料量,同時也希望能夠在資料量不斷增長的時候,能夠通過叢集擴容實作快速資料分析。

阿裡巴巴的EMR Spark對于1T資料的建構時間隻需要1小時。

【Spark Relational Cache實作亞秒級響應的互動式分析】

在2019杭州雲栖大會大資料生态專場上,阿裡巴巴技術專家健身為大家分享了阿裡雲EMR的Spark Relational Cache實作亞秒級響應的互動式分析。

EMR-Jindo:雲原生高效資料分析引擎

下圖展示了TPC-DS的基準測試報告,可以發現在2019年3月份10TB的測試中,性能名額得分是182萬左右,成本是0.31 USD;而2019年十月份同樣的測試性能名額得分已經變成526萬,成本下降到0.53 CNY,也就是說經過半年左右性能提升了2.9倍,成本縮減到原來的四分之一。同時阿裡巴巴還成為了首個送出TPC-DS測試100TB測試報告的廠商。這些成績的背後是EMR-Jindo引擎的支援。

【EMR 打造高效雲原生資料分析引擎】

在2019杭州雲栖大會大資料技術專場,阿裡雲阿裡巴巴計算平台事業部 EMR 技術專家辛庸向大家分享了如何基于開源體系如何打造雲上資料分析平台E-MarReduce(EMR)、EMR-Jindo 引擎背後的相關技術以及以 EMR-Jindo 為核心的雲上大資料架構方案。

首個通過TPC認證的公共雲産品

今年3月份,E-MapReduce成為全球首個通過TPC認證的公共雲産品。2019年9月,E-MapReduce新版本在TPC-DS 10TB benchmark中再次勇奪第一,性能達到5,261,414 QphDS,比之前最好成績提升19%,并且将機關查詢成本降低38%。同時,E-MapReduce首次将TPC-DS資料集規模拓展至100TB,性能達到14,861,137 QphDS,100TB的資料規模是競争對手産品最大處理能力的10倍。

以上摘自【

阿裡雲大資料+AI技術沙龍上海站回顧 | ​揭秘TPC-DS 榜單第一名背後的強大引擎

EMR 團隊在國内營運最大的 Spark 社群,本次分享,揭秘TPC-DS 榜單第一名背後的強大引擎,探索Pyboot如何打通大資料生态,一同學習業内最新的存儲方案和機器學習平台。

EMR速度再破世界紀錄

4月26日,大資料領域權威競賽TPC-DS公布了最新結果,阿裡雲作為全球唯一入選的雲計算公司獲得第一。值得一提的是,去年阿裡雲EMR首次打破該競賽紀錄,成為全球首個通過TPC認證的公共雲産品。今年在這一基礎上,EMR的計算速度提升了2.2倍,連續兩年打破了這項大資料領域最難競賽的世界紀錄。

【阿裡雲EMR計算速度提升2.2倍 連續兩年打破大資料領域最難競賽世界紀錄!】

EMR的計算速度提升了2.2倍,性能名額(QphDS)首次超過一千萬分,是友商的商業大資料産品3.5倍。同時,E-MapReduce繼續保持資料處理能力的規模優勢,100TB的資料規模是競争對手産品最大處理能力的10倍。

JindoFS SDK 全面開放使用

JindoFS SDK作為JindoFS的用戶端,提供了三大能力:1. 面向Hadoop/Spark生态提供通路OSS對象存儲的封裝;2. 通路JindoFS OSS緩存加速服務;3. 通路JindoFS塊模式檔案系統。本文主要介紹如何使用JindoFS SDK來通路OSS對象存儲,以及使用它來提升我們操作OSS檔案的性能。值得一提的是,此前JindoFS SDK 僅限于E-MapReduce産品内部使用,此次全方位面向整個阿裡雲OSS使用者放開,并提供官方維護和支援技術,歡迎廣大使用者內建和使用。

【重磅:阿裡雲 JindoFS SDK 全面開放使用,OSS 檔案各項操作性能得到大幅提升】

阿裡巴巴計算平台事業部 EMR 進階工程師撫月介紹了如何使用JindoFS SDK來通路OSS對象存儲,以及使用它來提升我們操作OSS檔案的性能。

阿裡雲 Jindo DistCp 全面開放使用

Jindo DistCp是阿裡雲E-MapReduce團隊開發的大規模叢集内部和叢集之間分布式檔案拷貝的工具。重點優化hdfs到oss的資料拷貝,通過定制化CopyCommitter,實作No-Rename拷貝,并保證資料拷貝落地的一緻性。功能全量對齊S3 DistCp和HDFS DistCp,性能較HDFS DistCp有較大提升,目标提供高效、穩定、安全的資料拷貝工具。

【再出王牌:阿裡雲 Jindo DistCp 全面開放使用,成為阿裡雲資料遷移利器】

阿裡巴巴計算平台事業部 EMR 開發工程師揚禮向我們介紹如何使用Jindo DistCp來進行基本檔案拷貝,以及如何在不同場景下提高資料拷貝性能。值得一提的是,此前 Jindo DistCp 僅限于E-MapReduce産品内部使用,此次全方位面向整個阿裡雲OSS/HDFS使用者放開,并提供官方維護和支援技術,歡迎廣大使用者內建和使用。

JindoFS系列直播

JindoFS系列直播【Hadoop Job committer 的演化和發展】 視訊連結

Job Committer是Mapreduce/Spark等分布式計算架構的重要組成部分,為分布式任務的寫入提供一緻性的保證,阿裡雲智能EMR團隊進階技術專家司麟本次分享主要介紹Job Committer的演進曆史,以及社群和EMR在S3/OSS等雲存儲上的最新進展。

JindoFS系列直播【關于 JindoFS 最新的 OTS 方案】

阿裡巴巴計算平台事業部EMR團隊技術專家辰石,在直播中向我們介紹JindoFS的中繼資料的後端演化。包括JindoFS的架構以及使用場景、JindoFS 中繼資料的不同的後端支援,以及JindoFS 在雲上環境如何支援 OTS 作為中繼資料後端。

JindoFS系列直播【存儲計算分離場景的計算适應優化】

阿裡雲EMR技術專家健身,會在本次分享中介紹雲上大資料處理的存儲計算分離特征,分析傳統大資料進行中資料本地化與存儲計算分離場景的差別,以及在存儲計算分離場景中阿裡雲EMR的相關優化。

JindoFS系列直播【大規模檔案中繼資料下的耗時操作優化】

阿裡雲EMR技術專家誠曆,會在本次分享中介紹大資料生态中常見的中繼資料服務部署形态,并分析大規模檔案中繼資料下在生産環境中可能遇到的問題,以及針對這些問題如何進行優化和調整。

JindoFS系列直播【JindoFS Fuse 支援】

本次直播主要介紹如何利用FUSE的POSIX檔案系統接口,像本地磁盤一樣輕松使用大資料存儲系統, 為雲上AI場景提供了高效的資料通路手段。嘉賓:阿裡巴巴計算平台事業部 EMR 進階工程師蘇昆輝,花名撫月。

JindoFS系列直播【JindoFS 存儲政策和讀寫優化】

本次分享主要介紹資料讀寫在計算存儲分離的場景下所面臨的常見問題以及相關的優化手段,并結合應用場景介紹對資料緩存加速的相關技術和政策。嘉賓:姚舜揚,花名辰山,阿裡巴巴計算平台事業部 EMR 進階開發工程師,目前從事大資料存儲方面的開發和優化工作。

JindoFS系列直播【Hadoop 小檔案/冷檔案分析】

龐大的小檔案和冷檔案數量會對HDFS的性能産生不利影響,嚴重時甚至影響業務穩定性,這個主題将介紹對大容量HDFS進行小檔案和冷檔案分析的方法,并基于分析結果可以采取哪些處理措施。嘉賓:郭聰,花名析源,阿裡雲計算平台事業部技術專家。目前主要從事大資料領域APM産品的研發工作。

相關文檔

JindoFS使用文檔

https://help.aliyun.com/document_detail/141542.html

JindoFS介紹

https://help.aliyun.com/document_detail/141534.html https://help.aliyun.com/document_detail/141535.html

功能說明

使用JindoFS SDK免密功能 Jindo DistCp使用說明 E-MapReduce JindoCube使用說明

一張圖看懂JindoFS

關于雲原生分布式計算和存儲引擎JindoFS,看這一篇就夠了

Apache Spark技術交流社群公衆号,微信掃一掃關注

關于雲原生分布式計算和存儲引擎JindoFS,看這一篇就夠了

繼續閱讀