天天看点

如何使用 Databricks 在 Azure 中构建数据湖库

作者:PowerBI365

如果想为公司构建一个现代数据平台,数据湖是最有前途的架构之一。在微软Azure云中,有多种方法和解决方案,其中之一就是Databricks。那么,接下来让我们一起来了解如何使用Databricks和Azure Cloud 构建现代数据平台。

数据湖架构

将数据湖与数据仓库集成,将数据湖、数据仓库和专用存储集成在一起,以实现统一治理和简化数据集成。

如何使用 Databricks 在 Azure 中构建数据湖库

(数据湖概念)

(Databricks)数据湖的好处

Azure云中的Databricks数据湖将数据仓库的数据治理与数据湖的灵活性和成本效率相结合,使公司能够使用(自助式)商业智能和机器学习或深度学习。Databricks数据湖将数据存储在基于开源数据标准的可全面扩展的云对象存储中,因此可以在任何地方以任何想要的方式使用数据。

在Azure中构建Databricks解决方案

架构可能如下所示,使用Azure中的数据湖存储作为基本存储。当然,如果公司中实际上没有任何半结构化或非结构化数据,也可以考虑仅使用关系数据库存储。

如何使用 Databricks 在 Azure 中构建数据湖库

Azure Databricks 架构

使用内置的Unity目录,可以轻松地处理Databricks上的数据应用开发。Unity Catalog 在Notebooks、Jobs和Databricks SQL 中可用,它提供的功能、用户界面使用户都可以用于数据湖和数据仓库。这些数据可以通过Power BI创建报告和仪表板。

概括

作为一种现代架构,数据湖可能会继续在公司中盛行。一种解决方案是将数据湖与Databricks一起用作数据仓库组件。实际项目中需要根据实际需求选择更好的方案和更优的成本。

如何使用 Databricks 在 Azure 中构建数据湖库

来源:

https://medium.com/codex/building-a-data-lakehouse-in-azure-with-databricks-f6e13aa0c44e

END

继续阅读