天天看點

湖倉一體概念催生百億新市場,信創基礎軟體賽道再迎潛力獨角獸

作者:36氪
湖倉一體概念催生百億新市場,信創基礎軟體賽道再迎潛力獨角獸

我們正生活在一個資料爆炸的時代。

根據IDC釋出的《資料時代2025》報告,2020年,全球資料總量為60ZB;預計到2025年,這一數字将達到175ZB,相當于約100萬億部高清電影的容量。

面對如此體量的資料規模,企業該如何做好存儲工作?

早年,企業大資料存儲以資料倉庫模式為主。這是一種在90年代出現,并在21世紀成熟的資料存儲處理方案,特别适合大量結構化資料的存儲。

2002年,Hadoop架構的出現,将資料倉庫推到了新的高度。此後,Lambda與kappa架構的出現,進一步提升了資料倉庫的性能與經濟性。

然而,随着大資料時代的到來,資料倉庫也暴露出了其先天劣勢。資料倉庫面向結構化資料設計,在存儲圖像、視訊、音頻等資料非結構資料時顯得力不從心。而後者,在大資料時代的占比則越來越多。

為此,資料智能行業在2016年提出了“資料湖”的解決方案,将結構化的“倉”轉換為非結構化的“湖”。但在資料爆炸的大背景下,資料體量的急劇擴張,讓資料湖在面對海量資料存儲時,成本及性能都會變得極不可控。

資料智能行業亟待一種兼顧“湖”“倉”優勢的資料存儲方案。在這一背景下,“湖倉一體”概念應運而生。

01. 湖倉一體,數字化轉型“底座的底座”

資料智能行業時下火熱的“湖倉一體”,究竟是什麼?

湖倉一體概念最早由資料智能獨角獸企業Databricks于2020年提出,其核心思想是融合資料倉庫與資料湖架構,以兼顧二者優勢。

湖倉一體架構在資料倉庫高性能與管理能力的基礎上,融合了資料湖的靈活特性,讓資料和計算可以在“湖”與“倉”之間自由流動,為客戶提供更加高效、靈活、低成本的存儲解決方案。

在企業擁抱數字化轉型的新時代,資料往往被視作是數字化轉型的底座,而資料存儲則是資料智能平台的底座。作為“底座的底座”,湖倉一體概念自出現之日起,就備受資料智能及整個科技産業的關注。

2021年,咨詢公司Gartner首次将湖倉一體收錄至技術成熟度模型。根據Gartner的目前,湖倉一體概念仍處于啟動階段,未來仍将保持快速增長。

湖倉一體概念催生百億新市場,信創基礎軟體賽道再迎潛力獨角獸

Gartner資料智能技術成熟度曲線

而在國内市場,湖倉一體也在蓬勃發展。

數字化市場調研機構愛分析日前釋出的《2022年中國市場湖倉一體研究報告》指出,2022年中國湖倉一體平台軟體市場規模15.2億元;預計到2025年,這一數字有望達到97.6億元,2022-2025三年間的複合增長率高達86%。

湖倉一體概念催生百億新市場,信創基礎軟體賽道再迎潛力獨角獸

湖倉一體平台軟體市場規模及增速 圖檔來源:愛分析

在企業及全社會的數字化浪潮下,國産化基礎軟體正在迎來千載難逢的機遇,湖倉一體及整個基礎軟體賽道增長強勁。在大資料時代,企業對于資料采集、存儲、治理的需求不斷增強。特别是資料量的增長,以及AI發展帶來的資料分析需求,讓企業開始重視資料平台建設。而這一趨勢,也讓此前在IT行業内頗為低調的資料智能企業走向前台,成為聚光燈下的焦點。

《2022年中國湖倉一體平台市場研究報告》指出,在國内湖倉一體平台軟體市場中,市場佔有率前三名的企業分别為科傑科技、華為雲、星環科技,市場佔有率占比分别為11.1%、9.5%、7.3%。

然而,在廣闊的市場前景之下,湖倉一體作為一項資料智能領域的前沿技術,也擁有着不小的技術門檻。中國資訊通信研究院釋出的《雲原生湖倉一體資料平台技術要求》,就将雲原生湖倉一體平台劃分了湖倉資料內建、湖倉存儲、湖倉計算、湖倉資料治理、湖倉其他能力五大能力域。要想進入到湖倉一體賽道,資料智能企業的技術實力備受考驗。

02. 湖倉一體賽道風起雲湧,獨角獸開始顯現

目前,新興的湖倉一體賽道已經湧現出一批玩家。

首先是雲計算廠商,如AWS、阿裡雲、華為雲等,它們憑借着其在雲計算市場的市占率與客戶基礎,将湖倉一體作為其資料存儲解決方案的一環,傳遞給合作夥伴。

與此同時,一些傳統的資料庫、資料倉庫企業,在湖倉一體的浪潮下,也開始在自身的資料庫、資料倉庫服務基礎上,提供湖倉一體化的解決方案,以滿足客戶需求。

而對于投資人而言,湖倉一體賽道最值得關注的,還是新興的大資料基礎軟體廠商。以科傑科技為例,根據愛分析的資料,其在國内湖倉一體平台軟體市場佔有率為11.1%,位居行業第一。

科傑科技國内頭部大資料&AI技術創新公司,其自主研發的核心産品湖倉一體資料智能平台KeenData Lakehouse,基于雲原生技術開發,提供端到端的一站式大資料基礎軟體解決方案。以此為基礎,科傑科技也提供了覆寫資料存儲計算引擎、資料管理、開發挖掘、運維一體化的整套方案,幫助企業建構資料能力。

據KeenData Lakehouse介紹,其最大亮點在于其湖倉融合的技術架構,既相容上遊的資料庫、資料湖,也能打通下遊的資料中台應用系統,進而幫助企業以最小成本相容原有的資料異構系統,并實作高效的資料治理與資料業務表達能力。

湖倉一體概念催生百億新市場,信創基礎軟體賽道再迎潛力獨角獸

科傑科技湖倉一體資料智能平台KeenData Lakehouse技術架構圖 圖檔來源:愛分析

事實上,湖倉一體賽道已經湧現出了一批獨角獸類企業,為各類企業提供相容性的湖倉能力。例如,在美國,Databricks是近年來資料智能領域融資額最高的公司之一,在胡潤釋出的《2022年中全球獨角獸榜》中,Databricks以2500億元估值位居全球第七位。而在國内,主打湖倉一體産品及解決方案的科傑科技以11.1%的市場占有率在行業競争中名列前茅。在資本眼中,湖倉一體早已成為資料智能乃至整個IT産業的“明日之星”。

在資本的助力下,資料智能産業與AI的結合也越加緊密,特别是在AIGC火爆的當下,無論是大資料的存儲,還是模型的訓練,都離不開資料智能平台的支撐。而湖倉一體先天與AI契合的屬性,更讓湖倉一體企業在AI時代加速成長。

資料智能企業也在廣泛布局AI賽道。例如,今年4月,Databricks更新了其開源大模型——Dolly,以更低的成本滿足客戶對于AI服務的需求。此外,Databricks 還在近期收購了AI 初創公司MosaicML。後者是一家隻有15名研究人員的初創企業。Databricks稱,收購MosaicML可以為客戶提供統一的AI平台,幫助客戶在現有的湖倉資料基礎上訓練自己的生成式AI模型。

值得一提的是,在資料智能領域,新概念往往是對現有技術架構的概括總結。無論概念如何發展,客戶的實際需求仍然是資料智能乃至各行各業的核心,需求永遠是技術進步的第一推動力。

是以,湖倉一體從業者們也在挖掘各個垂直行業市場的潛在需求。在這一次元下,金融業是湖倉一體落地最為深入的行業之一。

與其他行業相比,金融業的資料基礎優勢明顯,也更重視對資料智能的投入。在國内市場,金融行業的湖倉一體建設正在由大型國有銀行向股份制銀行、地方性銀行滲透。此外,非銀類金融機構對于湖倉一體的建設布局,也值得關注。 根據《2022年中國湖倉一體平台市場研究報告》,未來3-5年時間,金融業的湖倉一體架建構設将保持高速發展趨勢。

而在金融業之外,工業、交通、政務、零售等行業的湖倉一體轉型,也值得關注。未來2-5年,這些垂直領域都有望将迎來新一輪需求爆發。

以工業場景為例,《中國制造2025》行動綱領、“十四五”規劃與2035年遠景目标綱要都明确了工業,特别是制造業的數字化轉型目标。與其他行業不同,工業資料的體量極大,且資料量會根據随着實際生産持續增長,對資料存儲系統的實時性、可擴充性有極高的要求。而湖倉一體的資料融合、存算分離、批流一體等特點,可以助力工業企業加速數字化轉型。

而在交通領域,客戶對于資料存儲的需求則更加複雜。交通行業資料次元複雜,一個交通平台需要整合交警、運管、鐵路、航空、旅遊、氣象等多個來源的資料。其中,有相當一部分資料以非結構化形式存在,如圖檔、視訊資訊等。而湖倉一體整合結構化資料與非結構化資料的能力,可以減輕交通平台的存儲壓力,并為AI分析提供資料基礎。

各個垂直市場的需求,讓湖倉一體成為了大資料、資料智能領域最炙手可熱的投資賽道之一。在日前的“2023大資料産業發展大會”,中國信通院将湖倉一體列為了“2023大資料十大關鍵詞”之首。我們也将共同見證資料智能行業的又一個新增長極。