背景
随着資料量的爆發式增長,數字化轉型成為整個IT行業的熱點,資料也開始需要更深度的價值挖掘,是以需要確定資料中保留的原始資訊不丢失,進而應對未來不斷變化的需求。目前以oracle為代表的資料庫中間件已經逐漸無法适應這樣的需求,于是業界也不斷的産生新的計算引擎,以便應對資料時代的到來。在此背景下,資料湖的概念被越來越多的人提起,希望能有一套系統在保留資料的原始資訊情況下,又能快速對接多種不同的計算平台,進而在資料時代占的先機。
概述
什麼是資料湖
資料湖(Data Lake)以集中式存儲各種類型資料,包括:結構化、半結構化、非結構化資料。資料湖無需事先定義Schema,資料可以按照原始形态直接存儲,覆寫多種類型的資料輸入源。資料湖無縫對接多種計算分析平台,對Hadoop生态支援良好,存儲在資料湖中的資料可以直接對其進行資料分析、處理、查詢,通過對資料深入挖掘與分析,洞察資料中蘊含的價值。

資料湖的關鍵特征與價值
- 海量資料存儲:面向海量資料存儲設計,完全獨立于計算架構之外,無需額外的挂載操作,資料可直接通路,具備極大的靈活性和彈性能力,足以應對資料爆炸式發展,同時支援多層備援能力,實作資料高可靠與高可用
- 高效資料計算:豐富的資料存儲類型和共享能力,支援存儲結構化、半結構化、非結構化資料,同時可以适配多種不同的計算平台,避免資料孤島與無效的資料拷貝
- 安全資料管理:支援資料目錄功能,智能化的管理海量的資料資産,通過精細化權限控制保障資料安全
基于OSS的資料湖存儲
OSS介紹
阿裡雲對象存儲OSS(Object Storage Service)是阿裡雲提供的海量、安全、低成本、高可靠的雲存儲服務。其資料設計持久性不低于99.9999999999%(12個9),服務可用性(或業務連續性)不低于99.995%。OSS具有與平台無關的RESTful API接口,您可以在任何應用、任何時間、任何地點存儲和通路任意類型的資料。
基于OSS建構資料湖存儲
OSS在作為資料湖存儲,充分滿足資料湖的關鍵特性:
海量資料存儲:
- OSS采用分布式系統架構,扁平命名空間設計,支援無限制的存儲規模,并且性能和容量可以随着系統擴充線性提升
- OSS支援彈性擴容,容量自動擴充,不限制存儲空間大小,使用者可以根據所需存儲量無限擴充存儲空間,并隻按照實際使用量收取費用,無需客戶自己提前配置
- OSS支援資料高可用,1)在同一地域内(region)采用多可用區(AZ)備援機制以及跨地域的複制機制,避免單點故障導緻資料丢失或無法通路;2)支援資料周期性校驗,避免靜默資料損壞;3)支援Object操作強一緻性,寫入Object的資料在傳回成功響應後,立即可讀;4)支援多版本能力,防止資料誤删。整體OSS滿足12個9的資料持久性以及995%的服務可用性
高效資料計算:
- OSS提供RESTFul API,具有網際網路可通路能力,使用者可以随時随地立即存儲或者通路資料,無需提前進行映射和挂載操作
- OSS相容開源Hadoop生态,且無縫對接阿裡雲多種不同的計算平台,使得資料無需拷貝即可被計算平台共享使用。同時針對部分計算平台優化特定操作,進而提升資料處理性能
- OSS支援算子解除安裝能力,目前提供了Select語句支援,可以讓使用者從單個檔案中僅讀取需要的資料,進而提升資料擷取效率
安全資料管理:
- OSS支援資料生命周期管理,使用者可以通過設定生命周期規則,将符合規則的資料自動删除或者轉儲到更低成本的存儲中
- OSS支援用戶端和服務端兩種資料加密能力,使用者可以根據自身情況靈活選擇加密方案,避免資料洩露
- OSS通過WORM(Write Once Read Many)特性,支援資料保留合規,允許使用者以“不可删除、不可篡改”方式儲存和使用資料,符合美國證券交易委員會(SEC)和金融業監管局(FINRA)的合規要求(OSS已獲得對應的合規認證)
- OSS支援多種資料通路安全控制政策,實作針對bucket、object、role的長期或者臨時授權,進而滿足最小權限資料共享的安全政策
總結
綜合以上内容,在未來面向海量資料的資料湖場景下,對象存儲OSS非常适合企業建構海量、高效、安全的資料湖。
更多資料湖相關資訊交流請加入阿裡巴巴資料湖技術釘釘群