如果想為公司建構一個現代資料平台,資料湖是最有前途的架構之一。在微軟Azure雲中,有多種方法和解決方案,其中之一就是Databricks。那麼,接下來讓我們一起來了解如何使用Databricks和Azure Cloud 建構現代資料平台。
資料湖架構
将資料湖與資料倉庫內建,将資料湖、資料倉庫和專用存儲內建在一起,以實作統一治理和簡化資料內建。
(資料湖概念)
(Databricks)資料湖的好處
Azure雲中的Databricks資料湖将資料倉庫的資料治理與資料湖的靈活性和成本效率相結合,使公司能夠使用(自助式)商業智能和機器學習或深度學習。Databricks資料湖将資料存儲在基于開源資料标準的可全面擴充的雲對象存儲中,是以可以在任何地方以任何想要的方式使用資料。
在Azure中建構Databricks解決方案
架構可能如下所示,使用Azure中的資料湖存儲作為基本存儲。當然,如果公司中實際上沒有任何半結構化或非結構化資料,也可以考慮僅使用關系資料庫存儲。
Azure Databricks 架構
使用内置的Unity目錄,可以輕松地處理Databricks上的資料應用開發。Unity Catalog 在Notebooks、Jobs和Databricks SQL 中可用,它提供的功能、使用者界面使使用者都可以用于資料湖和資料倉庫。這些資料可以通過Power BI建立報告和儀表闆。
概括
作為一種現代架構,資料湖可能會繼續在公司中盛行。一種解決方案是将資料湖與Databricks一起用作資料倉庫元件。實際項目中需要根據實際需求選擇更好的方案和更優的成本。
來源:
https://medium.com/codex/building-a-data-lakehouse-in-azure-with-databricks-f6e13aa0c44e
END