天天看點

探讨企業資料架構戰略和資料湖的可能性和必要性

現今的企業資料架構戰略,必須解決如何将現有的資料系統與日益增長的資訊需求,性能和資料源相比對。

現今的cio們,在整合企業資料架構 中日益增長的各方面需求時,面臨着兩大挑戰。首先,是将現有的支援運作應用程式的資料系統, 與分析師和資料科學家越來越多的資訊需求之間相比對。其次,是管理持續不斷的,創新的資料管理功能 (比如hadoop或nosql)在企業内部的內建。cio的職責就是完成這一資料內建,提高資料的可通路性,同時降低系統的整體複雜性。

然 而,大多數企業的資料架構,随着時間的推移,通常在缺少預定義的資料架構戰略的情況下,自我進化。相應地,這些企業在能夠使用統一的方法通路企業資料資産 方面,遇到不斷增加的複雜性問題。随着資料管理創新的速度加快,新技術如hadoop,nosql和圖形資料庫正在計劃和引入,也增加了資料使用者對于數 據領域複雜性的擔憂。

資料湖領域

比較突出的一個例子就是資料湖概念的出現,根據定 義,“資料湖是指一個大型的基于對象的存儲庫,以資料的原始格式儲存資料,直到它需要被使用時。” 資料湖基本上是一個資料存儲平台,使企業能夠收集各種資料集,用資料的原始格式進行存儲,并讓不同的資料使用者可以通路這些資料集,使他們能夠根據各自的 業務目的使用這些資料。 資料湖的好處之一,就是為共享資料提供了單一存儲庫,進而降低資料複制,避免資料不一緻和增加成本。

和傳統的數 據采集和資料擷取方法相比,資料湖從根本上采取了不同的方法。傳統方法旨在使資料符合預定義的資料模型, 進而建立一個統一的資料資産,讓所有的資料使用者共享。将資料規範定義到單一格式,這種方法,稱為schema-on-write,可以限制下遊使用者分 析資料的方式。在資料湖中存儲資料的方式則被稱為schema-on-read,意為沒有預定義的資料存儲方式的限制,而是由使用者根據各自的需求,定義 通路資料的方式。

資料湖帶來了一些挑戰,尤其是對于那些習慣使用自己的資料集副本進行報告和分析的下遊資料使用者。首先,必須有一種友善擷取資料湖中資料的方式,其次,必須有一個方法配置被通路的資料,以一種使用者習慣的模型呈現。

在資料架構戰略中使用虛拟化工具

新的企業資料架構戰略所面臨的這些挑戰,都可以通過使用資料虛拟化工具得以解決。資料虛拟化和聯邦工具在一組資料源和不同的資料使用者之間提供了一個抽象 層。 面向資料的工具被稱為資料聯邦。 這種技術提供了通路各種資料源類型的方案,包括大多數關系資料庫系統,前代存儲系統(比如,flat files,vsam檔案和其他主機存儲方式),以及各類新興技術,如hadoop和nosql。資料聯邦工具使應用程式能夠透明地查詢分布在多個存儲平 台的資料,同時隐藏資料源位置,或資料格式的詳細資訊。而面向使用者的工具通常被稱為資料虛拟化。這一技術允許資料使用者定義邏輯語義資料模型,然後映射 到每個聯邦資料源的模型。這一語義模型提供了抽象層,簡化了資料使用者的可通路性。使用者對語義模型的查詢被轉換為每個聯邦資料源的一系列自定義查詢集。 當這些查詢的結果集傳回到資料虛拟化工具時,這些中間結果會被收集,整理和配置成一個最終的結果集傳回給使用者。實際上,資料虛拟化工具通過面向使用者的數 據實體化規則,簡化了将來自多個源的資料相融合的技術。

在定義語義模型中使用資料虛拟化工具,解決了通路資料湖中資料的兩大問題。對資料 湖的資料進行聯邦通路,不需要使用者改寫他們的應用程式,進而包含從資料湖讀取資料的代碼,同時降低了資料複制的需求。現有的應用程式可以連接配接語義模型,使 資料源對于使用者的應用程式變得透明。同時,資料虛拟化會隐藏schema-on-read的複雜性,使每個使用者都能夠将特定的資料規範化和資料轉換規則 應用于資料,進而适用于每個應用程式。

資料虛拟化和資料聯邦是支援企業資料架構戰略(包括大資料)的橋接技術。這些工具降低了開發和營運 的成本,通過(低成本)資料湖的使用,降低複制資料集的存儲需求。它們還為大多數平台提供了一個無縫的可通路性,随着新技術的不斷采用,延伸了傳統平台的 生命周期。 資料虛拟化工具,通過使用内部軟體的緩存,查詢最優化,流水線資料流,和壓縮存儲,進而簡化了環境資料的可通路性,避免了顯著的性能退化。這些工具還為引 入從大量快速興起的資料源中提取和分析資訊的創新技術鋪平了道路。

原文釋出時間為:2015年9月15日

本文來自雲栖社群合作夥伴至頂網,了解相關資訊可以關注至頂網。