如何建立一個适用于多樣資料類型,并可擴充的靈活資料平台?答案就在資料湖中!
如何建構下一代大資料架構——資料湖

技術和軟體的進步使我們能夠處理和分析大量資料。雖然很明顯,大資料是一個企業投入了大量資金的熱門話題,但要注意,除了考慮資料規模,我們還需要考慮到被分析資料類型的多樣性。資料種類不同意味着資料集可以存儲在許多格式和存儲系統中,每個類型都有自己的特征。
考慮資料多樣性是一項艱巨的任務,但有一種方法可以使你360度全面了解你的客戶,提供商和營運商。為了實作這種方法,我們需要實作下一代大資料架構。接下來,我們來看一下如何建構下一代大資料架構。
如今,較具前瞻性的企業都越來越依賴資料湖。資料湖是管理事務資料庫,同時,資料湖也可以看做是一個大資料分析平台。資料湖支援不同來源的資料,如檔案,點選流,iot傳感器資料,社交網絡資料和saas應用程式資料。
資料湖的核心原則是存儲原始的,未經改變的資料。這讓資料分析和探索更具有靈活性,并且還允許查詢和算法基于曆史和目前資料,而不是基于單個時間點的快照來演變。資料湖可将資料集中到一個公共存儲庫中,以此避免資訊孤島。該存儲庫很可能分布在許多實體機上,但最終将為使用者提供透明通路和基礎分布式存儲的統一視圖。此外,資料不僅是分布式的而且是複制的,是以可以確定資料的易通路和可用性。
資料湖存儲所有類型的資料,包括結構化和非結構化資料,并通過整個企業的統一視圖提供民主化通路。通過這種方法,使用者可以在單個平台支援許多不同的資料源和資料類型。 資料庫加強了企業現有的it基礎架構,與傳統應用程式內建,增強(甚至替換)企業資料倉庫(edw)環境,并可利用日益增長的資料種類和資料量為新應用程式提供支援。
能夠存儲不同類型的資料是資料湖的一個重要特征,這保證了使用者不會丢棄任何有價值的中繼資料或原屬性,不同的資料分析技術也可用于資料的各階段,避免了僅在其被聚合或變換之後才處理資料而産生的限制。建立可以使用不同算法查詢的統一存儲庫,包括傳統edw環境範圍之外的sql備選方案,是資料湖的标志和大資料戰略的基本部分。
為了實作資料湖的最大價值,必須保證資料的品質和可靠性——即確定資料湖可以恰當地反映公司業務。可以輕松通路,讓使用者能夠更快識别他們想要使用的資料。為了管理資料湖,關鍵是具有清理,保護和操作資料的流程。
建構資料湖不是一個簡單的過程,必須決定采集哪些資料,以及如何組織和編目資料。 雖然它不是一個自動化的過程,但有相應的工具和産品來簡化企業級現代資料湖架構的建立和管理。這些工具允許提取不同類型的資料包括流,結構化和非結構化,所有這些都為靈活資料湖平台的建立打下了基礎。
本文轉自d1net(轉載)