天天看點

資料湖資料湖

版權聲明:本文為部落客chszs的原創文章,未經部落客允許不得轉載。 https://blog.csdn.net/chszs/article/details/79349090

資料湖

  • 2018.2.21
  • 版權聲明:本文為部落客chszs的原創文章,未經部落客允許不得轉載。

我們生活在資料時代,根據Gartner的報告,全球資訊資料量每年以59%的速度遞增。管理海量資料是一個重大挑戰,資料的品種和增長速度使管理變得更加困難。而且非常明顯的是,越來越巨量的資料随着時間在繼續生成,特别是在手持裝置和網際網路連接配接裝置數量的指數增長的背景下。

對于參與其中的組織來說,這是事實——但對于其他傳統組織來說,資料量的增長并不是那麼高。不同組織的資料量不同。盡管存在這種差異,但它們之間的一個共同因素是,對于不同的利益相關方來說,進行有意義且有用的分析的重要性。随着越來越多的組織使用不同功能的工具,為不同利益相關者生成有意義且有用的報告的任務變得越來越具有挑戰性。

什麼是資料湖?

Gartner研究總監Nick Heudecker解釋了資料湖:

“從廣義上講,資料湖作為企業範圍的資料管理平台進行銷售,以分析原生格式的不同資料源。這個想法很簡單:不是将資料放入專門建構的資料存儲區,而是将其移入原始格式的資料湖。這消除了資料攝入的前期成本,如轉換。資料放入湖中後,可供組織中的每個人分析。”

是以,資料湖通過打破資料孤島,幫助企業洞察資料。“資料湖”一詞在2010年首次使用,其定義/特征仍在不斷演變。一般來說,“資料湖”指的是一個中央存儲庫,能夠存儲從各種内部和外部源以接近原始資料的格式擷取的Zettabytes資料。

資料湖的挑戰

資料湖通常被認為是收集和整理來自遺留系統和來源,資料倉庫和分析系統,第三方資料,社交媒體資料,點選流資料以及可能被視為有用資訊的所有企業資料企業。雖然這個定義很有趣,但它對每個組織來說都是可行的還是必需的?

不同的組織具有不同的分布式資料挑戰和模式,并且随着場景的多樣化,每個組織都有自己的資料湖需求。雖然資料的需求,模式,來源和體系結構不同,但在建構中央存儲或資料中心方面面臨的挑戰是相同的:

  • 将來自不同來源的資料導入共同的中央池
  • 處理少量但高度多樣化的資料
  • 與資料倉庫或大資料相比,将資料存儲在低成本基礎架構中
  • 與中央資料存儲接近實時同步資料
  • 中央資料的可追溯性和治理

資料湖的實施注意事項

在大多數情況下,資料湖與資料即服務模型的實質部署在一起,被視為集中記錄系統,為企業級别的其他系統提供服務。本地化資料湖不僅擴充到支援多個團隊,而且還生成多個資料湖執行個體以支援更大的需求。這些集中的資料可以被所有不同的團隊用于分析需求。

有了這些了解,就可以在內建和治理方面讨論資料湖泊的各種需求。

資料湖整合的挑戰

為了在企業級部署資料湖,它需要具備某些功能,以便将其整合到組織的整體資料管理政策,IT應用程式和資料流環境中。

  • 為了使資料湖的資料在以後的時間點有用,確定湖泊在正确的時間擷取正确的資料非常重要。例如,資料湖可能會從企業财務軟體中提取月度銷售資料。如果資料湖太早接收資料,它可能隻會獲得部分資料集或根本沒有資料。這可能會導緻報告不準确,導緻公司朝錯誤的方向發展。是以,将資料總體背景中的資料內建平台運作到資料湖應該能夠根據業務情況實時和按需地從各種工具推送資料。
  • 雖然資料庫的主要目的是存儲資料,但有時(基于不同的業務案例,為了友善其他部門将來使用這些資料),一些資料需要在插入資料之前進行提取或處理湖。是以,內建平台不僅應該支援這一點,還要確定資料處理的準确性和正确的順序。
  • 隻有當存儲的資料可以被所有不同部門提取以供自己使用時,集中式資料存儲才是有用的。應該有能力将資料湖與其他應用程式或下遊報告/分析系統內建。資料湖應該也支援REST API,不同的應用程式可以通過它們互動來擷取或推送他們自己的資料。

資料湖治理的挑戰

資料湖不僅僅是集中存儲資料并在需要時将其提供給不同的部門。随着越來越多的使用者開始直接使用資料湖或通過下遊應用程式或分析工具,資料湖治理的重要性也随之增加。資料湖通過将來自不同儲存庫的多樣化資料集引入單一儲存庫,創造了新的挑戰和機遇。

主要挑戰是確定資料治理政策和程式的存在并在資料湖中實施。每個資料集的擁有者在進入湖泊時都應該有明确的定義。應該有一個關于每個資料所需的可通路性,完整性,一緻性和更新的非常詳細的政策或指南。

為了解決上述問題,資料湖中應該有内置的機制來跟蹤和記錄資料湖中存在的任何資料資産的操縱。

資料湖對每個人都是一樣的嗎?

對于所有組織而言,資料湖的實施情況并不相同,因為資料量和資料收集要求因組織而異。總的來說,資料湖帶來的觀念是資料量應該在PB級或甚至更多,并且需要使用NoSQL資料庫來實作。實際上,這些資料量和NoSQL DB的實作可能并不是所有組織都可能需要或可能無法實作的。擁有适合組織所有分析需求的中央資料存儲的最終目标可以從SQL DB開始,并具有相當大的資料量。

繼續閱讀