天天看點

滴普科技:為什麼越來越多的企業會選擇“湖倉一體”?

資料庫行業正走向分水嶺。

過去幾年,全球資料庫行業發展迅猛。2020年,Gartner首次把資料庫領域的魔力象限重新定義為Cloud DBMS,把雲資料庫作為唯一的評價方向;2021年,Gartner魔力象限又發生了兩個關鍵的變化:1、Snowflake和Databricks兩個雲端資料倉庫進入上司者象限;2、放開了魔力象限的收入門檻限制,SingleStore、Exasol、MariaDB、Couchbase等資料庫新勢力首次進入榜單。

某種程度上,這種變化的背後,暗示着全球資料庫已經進入發展的黃金時代,也是一衆新興勢力的加速崛起之年。其中,最為典型的例子是Snowflake和Databricks經常隔空喊話,前者是雲端數倉的代表玩家,去年繼續保持了1倍以上的業務增長;後者因推出“湖倉一體”,估值一路飙升至360億美金,兩者之争,其實是資料庫新舊架構之争。

随着企業數字化駛入深水區,對于資料使用場景也呈現多元化的趨勢,過去容易被企業忽略的資料,開始從幕後走到台前,如何為衆多場景選擇一款合适的資料庫産品,已經成了很多CIO和管理者的一道必答題。但有一點可以确定的是,過去的資料庫已難以比對眼下日益增長的資料複雜度需求,基于擴充性和可用性劃分,分布式架構突破單機、共享、叢集架構下的資料庫局限,近些年發展态勢迅猛。為此,這篇文章我們将主要分析:

1、資料倉、資料湖、湖倉一體究竟是什麼?

2、架構演進,為什麼說湖倉一體代表了未來?

3、現在是布局湖倉一體的好時機嗎?

01:資料湖+資料倉≠湖倉一體

在湖倉一體出現之前,資料倉庫和資料湖是被人們讨論最多的話題。

正式切入主題前,先跟大家科普一個概念,即大資料的工作流程是怎樣的?這裡就要涉及到兩個相對陌生的名詞:資料的結構化程度和資料的資訊密度。前者描述的是資料本身的規範性,後者描述的是機關存儲體積内、包含資訊量的大小。

一般來說,人們擷取到的原始資料大多是非結構化的,且資訊密度比較低,通過對資料進行清洗、分析、挖掘等操作,可以排除無用資料、找到資料中的關聯性,在這個過程中,資料的結構化程度、資訊密度也随之提升,最後一步,就是把優化過後的資料加以利用,變成真正的生産資料。

簡而言之,大資料處理的過程其實是一個提升資料結構化程度和資訊密度的過程。在這個過程中,資料的特征一直在發生變化,不同的資料,适合的存儲媒體也有所不同,是以才有了一度火熱的資料倉庫和資料湖之争。

我們先來聊聊資料倉庫,它誕生于1990年,是一個面向主題的、內建的、相對穩定的、反映曆史變化的資料集合,主要用于支援管理決策和資訊的全局共享。簡單點說,資料倉庫就像是一個大型圖書館,裡面的資料需要按照規範放好,你可以按照類别找到想要的資訊。

就目前來說,對資料倉庫的主流定義是位于多個資料庫上的大容量存儲庫,它的作用在于存儲大量的結構化資料,為管理分析和業務決策提供統一的資料支援,雖然存取過程相對比較繁瑣,對于資料類型有一定限制,但在那個年代,資料倉庫的功能性已經夠用了,是以在2011年前後,市場還是資料倉庫的天下。

到了網際網路時代,資料量呈現“井噴式”爆發,資料類型也變得異構化。受資料規模和資料類型的限制,傳統資料倉庫無法支撐起網際網路時代的商業智能,随着Hadoop與對象存儲的技術成熟,資料湖的概念應用而生,在2011年由James Dixon提出。

相比于資料倉庫,資料湖是一種不斷演進中、可擴充的大資料存儲、處理、分析的基礎設施。它就像一個大型倉庫,可以存儲任何形式(包括結構化和非結構化)和任何格式(包括文本、音頻、視訊和圖像)的原始資料,資料湖通常更大,存儲成本也更為廉價。但它的問題也很明顯,資料湖缺乏結構性,一旦沒有被治理好,就會變成資料沼澤。

從産品形态上來說,資料倉庫一般是獨立标準化産品,資料湖更像是一種架構指導,需要配合着系列周邊工具,來實作業務需要。換句話說,資料湖的靈活性,對于前期開發和前期部署是友好的;資料倉庫的規範性,對于大資料後期運作和公司長期發展是友好的,那麼,有沒有那麼一種可能,有沒有一種新架構,能兼具資料倉庫和資料湖的優點呢?

于是,湖倉一體誕生了。依據DataBricks公司對Lakehouse 的定義,湖倉一體是一種結合了資料湖和資料倉庫優勢的新範式,在用于資料湖的低成本存儲上,實作與資料倉庫中類似的資料結構和資料管理功能。湖倉一體是一種更開放的新型架構,有人把它做了一個比喻,就類似于在湖邊搭建了很多小房子,有的負責資料分析,有的運轉機器學習,有的來檢索音視訊等,至于那些資料源流,都可以從資料湖裡輕松擷取。

就湖倉一體發展軌迹來看,早期的湖倉一體,更多是一種處理思想,處理上将資料湖和資料倉庫互相打通,現在的湖倉一體,雖然仍處于發展的初期階段,但它已經不隻是一個純粹的技術概念,而是被賦予了更多與廠商産品層面相關的含義和價值。

這裡需要注意的是,“湖倉一體”并不等同于“資料湖”+“資料倉”,這是一個極大的誤區,現在很多公司經常會同時搭建數倉、資料湖兩種存儲架構,一個大的數倉拖着多個小的資料湖,這并不意味着這家公司擁有了湖倉一體的能力,湖倉一體絕不等同于資料湖和資料倉簡單打通,反而資料在這兩種存儲中會有極大備援度。

02:為什麼說湖倉一體是未來?

回歸開篇的核心問題:湖倉一體憑什麼能代表未來?

關于這個問題,我們其實可以換一個問法,即在資料智能時代,湖倉一體會不會成為企業建構大資料棧的必選項?就技術次元和應用趨勢來看,這個問題的答案幾乎是肯定的,對于高速增長的企業來說,選擇湖倉一體架構來替代傳統的獨立倉和獨立湖,已經成為不可逆轉的趨勢。

一個具有說服力的例證是,現階段,國内外各大雲廠商均陸續推出了自己的“湖倉一體”技術方案,比如亞馬遜雲科技的Redshift Spectrum、微軟的Azure Databricks、華為雲的Fusion Insight、滴普科技的FastData等,這些玩家有雲計算的老牌龍頭,也有資料智能領域的新勢力。

事實上,架構的演進是由業務直接驅動的,如果業務側提出了更高的性能要求,那麼在大資料架建構設的過程中,就需要資料庫架建構設上進行技術更新。以國内數字化企業服務領域成長最快的獨角獸滴普科技為例,依托新一代湖倉一體、流批一體的資料分析基礎平台FastData,基于對先進制造、生物醫藥、消費流通等行業的深度洞察,滴普科技從實際場景切入,為客戶提供了一站式的數字化解決方案。

滴普方面認為,“在資料分析領域,湖倉一體是未來。它可以更好地應對AI時代資料分析的需求,在存儲形态、計算引擎、資料處理和分析、開放性以及面向AI的演進等方面,要領先于過去的分析型資料庫。”以AI應用層面為例,湖倉一體架構天然适合AI類的分析(包括音視訊非結構化資料存儲,相容AI計算架構,具有模型開發和機器學習全生命周期的平台化能力),也更适合大規模機器學習時代。

滴普科技:為什麼越來越多的企業會選擇“湖倉一體”?

這一點,和趨勢不謀而合。

就在前不久,Gartner釋出了湖倉一體的未來應用場景預測:湖倉一體架構需要支援三類實時場景,第一類是實時持續智能;第二類是實時按需智能;第三類是離線按需智能,這三類場景将可以通過快照視圖、實時視圖以及實時批視圖提供給資料消費者,這同樣是未來湖倉一體架構需要持續演進的方向。

03:現在是布局湖倉一體的好時機嗎?

從市場發展走向來看,“湖倉一體”架構是基于技術發展程序的必經之路。

但由于這個新型開放架構仍處于發展早期,國内外企業數字化水準和市場認知的不同,造成了解決方案也存在着較大的差異。在業内投資人看來,“雖然美國的企業服務市場比我們成熟的多,也有很多路徑可以參考,但中國市場卻有着很多中國特色。以對标Databricks的滴普科技為例,美國企業服務市場往往賣産品就可以了,但中國大客戶群體需要更與客戶資深場景深度融合的解決方案,解決方案需要兼顧通用性和定制化。”

在此前與滴普科技的合作中,百麗國際就已經完成了統一數倉的搭建,實作了多個業務線的資料采集和各個業務域的資料建設。在保證前端資料正常運作、“熱切換”底層應用的前提下,滴普科技和百麗國際緊密協作,在短短幾個月時間裡将多個數倉整合為統一數倉,有效統一了業務口徑,大幅縮減了開發運維工作量,整個業務價值鍊也形成了閉環。

滴普科技:為什麼越來越多的企業會選擇“湖倉一體”?

這也是“湖倉一體”的能力價值所在:随着資料結構的逐漸多樣性,3D圖紙、直播視訊、會議視訊、音頻等資料資料越來越多,為深度挖掘資料價值,依托于領先的湖倉一體技術架構,百麗國際可先将海量的多模資料存儲入湖,在未來算力允許時,及挖掘深度的業務分析場景後,從資料湖中抓取資料分析。

舉個簡單的例子,某個設計師想要設計一款鞋子,一般會從曆史資料中找有效資訊參考,設計師也許隻需要一張貨品照片,就能像浏覽電影般,了解到該商品多年來全生命周期的銷售業績、品牌故事、競品分析等資料,賦能生産及業務決策,實作資料價值的最大化。

一般來說,大體量的企業想要保持持續增長,往往需要依靠大量、有效的資料輸出,進而實作智慧決策。很多企業出于 IT 建設能力的限制,導緻很多事情沒法做,但通過湖倉一體架構,讓之前被限制的資料價值得以充分發揮,如果企業能夠在注重資料價值的同時,并有意識地把它儲存下來,企業就完成了數字化轉型的重要命題之一。

我們也有理由相信,随着企業數字化轉型加速,湖倉一體架構也會有更為廣闊的發展空間。