天天看點

超級獨角獸 Databricks 的崛起之路

作者:牛透社
超級獨角獸 Databricks 的崛起之路

文 | 鄭博

随着網際網路資料的爆炸性增長,資料已經成為企業的新型資源,猶如石油般重要。越來越多的企業希望利用各種結構化和非結構化資料來發揮自己的優勢。

然而,他們面臨着複雜的遺留基礎設施、資料孤島的解決以及高延遲的管理等挑戰。是以,資料湖的需求逐漸增長。資料湖是一種存儲庫,能夠以本機格式攝取大量原始資料,使企業能夠在需要時輕松地通路它們。

Databricks 是目前一級市場中的超級獨角獸公司。其幫助企業準備用于分析的資料,支援采用機器學習和資料驅動的決策。它還使資料科學能夠與資料工程和其他業務部門協作來建構資料産品。今天,它已經擴充成為一個更廣泛的湖倉一體的 Databricks Marketplace。

旅程始于 Apache Spark

Databricks 團隊由七位計算機科學博士組成,他們一直緻力于開發用于資料處理的 Spark 引擎。該項目在 2014 年創造了資料排序速度的世界紀錄。

為了讓更多使用者使用 Spark,他們選擇将其開源,并在 2013 年創立了 Databricks 公司。同年,該公司完成了 A 輪融資,由 A16z 領投。2016 年 1 月,Databricks 更換了新的 CEO。一年後,該公司完成了第一筆百萬美元的交易。

總體而言,Databricks 團隊是 Apache Spark 的核心開發者,具有絕對的影響力和了解力,是以作為 Spark 的商業化公司,Databricks 名正言順。

拓展産品線助力收入多元化

Databricks 最初專注于 Spark,用于查詢存儲在資料湖中的大型非結構化資料集。此後,為迎合市場,Databricks 更新為湖倉一體平台,其基于 Spark 建構,提供為資料湖提供 ACID 事務和資料版本控制的 Delta Lake;用于管理機器學習工作流程的開源平台 MLflow;以及基于 SQL 的資料分析協作工具 Redash。

總體來看,Databricks 湖倉一體平台結合了資料湖和資料倉庫的元素。它具有資料湖的靈活性、成本效益和規模,同時還提供資料倉庫的資料管理和 ACID 事務。使用者可以在所有資料上啟用商業智能和機器學習。

Databricks 産品在 AWS、Azure、GCP 等主要雲服務上提供,其平台為資料、分析和機器學習工作提供了一個統一的環境。可視化可以成為這些不同活動的組成部分。

超級獨角獸 Databricks 的崛起之路

來源:Databricks

資料湖市場增長,使用者橫跨大中小

Databricks 相信企業正在擺脫孤立的系統來存儲資料,而是選擇集中式的資料存儲。這種方法幫助企業通過商業智能和預測分析深入了解過去和未來的趨勢。

資料湖技術正是基于此,其允許将所有資料類型和來源存儲在一起。資料表明,資料湖市場将由 2019 年的 79 億$增長到 2024 年的 201 億$。

超級獨角獸 Databricks 的崛起之路

來源:marketsandmarkets

此外,Databricks 的客戶橫跨大中小企業,以及各個行業。截至 2023 年 03 月,其全球已有超過 9000 家企業使用者。包括 AT&T、殼牌、巴寶莉、豐田、Adobe、康泰納仕和再生元制藥等。

如果我們用 Databricks 2022 年 Q2 末的 ARR 10億$除以它 2022 年 Q2 末 7000+的客戶數量,我們可以粗略估算 Databricks 的 ACV(平均合同價值)約為 14.3 萬美元,相比 Snowflake 的 30.1 萬$ (2023.Q3 估算),仍有提升空間。

三類對手的夾擊

2012 年,前 Oracle 架構師創立的 Snowflake 是 Databricks 不可忽視的對手。最初,Snowflake 将自己定位為提供數倉和分析計算工作負載的雲資料平台,主要面向業務分析師和資料工程師等使用者。同期,Databricks 則一直受資料科學家和機器學習工程師的青睐。

但現在二者的界限在模糊,比如 Snowflak 釋出了 Snowpark for Data Science、事務資料庫以及 Python 支援功能,希望以此吸引資料科學家。而 Databricks 則推出了 Databricks SQL、Delta Lake 功能和 Unity 目錄等産品,以滿足資料存儲和注重安全的客戶。

從模式來看,Snowflake 是閉源生态,而 Databricks 是開源的。Databricks 的主要産品線都可以免費使用,當客戶需要獲得更進階的功能和支援時,可以選擇 Databricks 的企業産品。Snowflake 提供現成的解決方案,使公司能夠快速開展基本分析,而 Databricks 提供更好的定制和配置,讓客戶能夠完全控制他們的設定。

2022 年底,Snowflake 的年收入 21 億$,而 Databricks 預計年收入 14億$。預計兩家的競争會愈發激烈。

第二類競争對手是雲廠商。Databricks 與雲廠商的專有産品存在競争。比如在大資料處理方面,AWS 有 Amazon EMR,Azure 有 Azure HDInsight,GCP 有 Dataproc。在業務分析解決方案層面, Amazon QuickSight、Azure的 Power BI Embedded 以及 GCP 的Looker 等,都與 Databricks 存在競争。

最後,Databricks 與特定的資料管理和科學領域解決方案公司也存在競争。比如 Databricks 的排程程式類似 Apache Airflow,MLflow 産品與 DataRobot 和 Alteryx 競争。

收入持續增長,資本認可的超級獨角獸

Databricks 本身是開源軟體,其會通過提供附加功能收費。Databricks 會為企業提供其開源軟體的完全托管版本,以及其他輔助工具,如用于編寫查詢的 SaaS 工具和用于連接配接資料源的連接配接器等。

付費模式方面,Databricks 根據客戶每秒消耗的計算資源量收費。為此,其使用了一種自己獨創的 DBU 作為其标準化機關,工作負載消耗的 DBU 數量取決于多個名額,包括使用的計算資源、處理的資料量、區域、所處的分級定價層以及正在使用的服務類型等。

此外,為了吸引使用者,與其他開源公司類似,Databricks 也為使用者提供了 14 天免費試用期。

超級獨角獸 Databricks 的崛起之路

來源:Databricks

财務方面,Databricks 也實作了跨越式的增長。2019.Q3 結束時其 ARR 為 2 億$,2020 全年收入 4.25 億$,2021 年 ARR 超 8 億$。截至 2022 年 08 月,Databricks 的 ARR 已經超 10 億$,并且年增長超過 70%。

截至 2021 年 08 月 Databricks 的估值 380 億$,總共在資本市場籌集了 35 億$,其投資者也星光璀璨,包括 A16z、Tiger Global、Amazon Web Services、Microsoft、Coatue 等。

當然也有消息透露,2022 年 10 月 Databricks 降低了内部股價,使其估值下調至 310 億$,比 2021 年同期下降約 7%。但無論如何,Databricks 仍然是一級市場中的超級獨角獸。

趨勢、機遇與風險

随着雲存儲成本下降和網速提升,企業越來越多地選擇将所有資料存儲在中央存儲庫,而不是将不同的資料類型單獨存儲。這種集中化趨勢幫助公司通過實時商業智能和預測分析更好地了解業務營運。同時,資料爆炸式增長也使公司維護多個大型資料存儲變得不切實際,進而導緻資料湖和資料倉庫融合到一個平台中。

ChatGPT 一直是各行業的熱點。Databricks 也迎接了這一浪潮,其湖倉一體平台允許資料團隊存儲和保護資料、生成分析和見解,并推動機器學習工具的開發。此外,Databricks 還提供與 TensorFlow、PyTorch 等流行人工智能架構的內建,使建構和部署機器學習模型變得容易。

Databricks 依靠 AWS、Azure 和 GCP 這類雲基礎設施供應商來提供服務。回望過去,與微軟的合作是 Databricks 的裡程碑,這幫助其收入從 2017 年初的不到 100 萬$增長到 2018 年的超過 1 億$。如果與主要雲廠商關系發生變化,将影響 Databricks 的服務能力。

綜上所述,我們有理由相信雖然面臨挑戰,但在這個資料擴張以及 AI 興起的時代,Databricks 為企業提供的單一的資料存儲和分析平台是有價值的,其很有機會和能力抓住這一浪潮。

繼續閱讀