天天看點

比 Spark 快 9 倍,超越 ClickHouse,在大語言模型時代建構新資料平台

作者:InfoQ

采訪嘉賓 | 關濤

編輯 | Tina

人工智能的迅速發展正在改變着我們的世界,對于大資料企業來說更是如此。

在大語言模型的引領下,資料平台領軍企業 Databricks 和 Snowflake 的未來正在被重新書寫。這兩家企業在不久前的釋出會上強調了大語言模型和 AI 能力的重要性,試圖通過一體化的方式滿足使用者的資料處理需求。與此同時,随着大語言模型的引入,一般企業面臨着一個新的挑戰,即如何在現有的資料平台中充分發揮 LLM 的潛力。在這一大趨勢的驅動下,傳統的資料平台需要進行相應的補充和優化,而雲器科技資料平台 Lakehouse 也在這個時機嶄露頭角。

雲器科技的一體化平台,在資料分析部分,通過引入新的計算範式——增量計算,統一了流計算、批處理和互動分析,不同分析場景下,雲器的性能比批處理引擎 Spark 快了九倍,同時超越互動分析産品 ClickHouse。在 AI 支援部分,平台同時支援半/非結構化資料存儲以及對應的 AIOps,做到 BI+AI 一體化。

我們與關濤進行了深入的交談,探讨了 Databricks 和 Snowflake 等知名平台的演進,同時聚焦于計算平台的變革與發展。在人工智能成為一等公民的背景下,他如何看待 LLM 對大資料企業的影響和改變?資料的管理和處理方式是否已經發生了根本性的變化?作為資料庫和計算平台領域的權威,他的深刻見解将引領我們深入思考,探索計算平台未來的一些可能性。

采訪嘉賓:

關濤(Tony),雲器科技聯合創始人/CTO,分布式系統和大資料平台領域專家。前阿裡雲計算平台事業部研究員,阿裡巴巴通用計算平台 MaxCompute、Dataworks 負責人,層負責阿裡巴巴主線大資料平台。前阿裡巴巴和螞蟻集團技術委員會計算平台領域組長、阿裡雲架構組大資料組組長。回國加入阿裡雲之前,在微軟雲計算和企業事業部工作 9 年,主持和參與開發了包括 Azure Datalake,Cosmos/Scope,Kirin 在内的多套超大規模分布式存儲和計算平台。并著有多篇國内外會議論文和專利。

關濤是 2023 QCon 北京“從 BI 到 BI+AI,新計算範式下的大資料平台”專題出品人,QCon 北京将于 2023 年 9 月 3 日-9 月 5 日在北京·富力萬麗酒店舉行。

AI 給大資料行業帶來哪些影響?

InfoQ:您在21年的采訪中給出了資料平台領域一系列趨勢預測,比如提到“湖倉一體是一個新興的方向,但有望成為業界新标準“。兩年之後回頭看,當年哪些預測已經實作了? 哪些還沒有?為什麼?

關濤: 兩年前,我們從四個方向上做了一個趨勢預測:離線到實時的全頻譜;湖倉一體新架構;IoT 資料成為新增長點;AI 将成為資料庫、資料平台的一等公民。

現在我們可以來看看當時的預測,哪些方向相對是準确的。首先,離線到實時的全頻譜,是比較明确的方向(這也是雲器科技的方向)。當下無論是存儲領域的 Delta、Hudi、Iceberg,還是實時化資料處理領域的 Databricks、Snowflake,都在追求這一方向,以支援更全面覆寫的流批互動能力,而不是聚焦在單一方向的優化上。

其次是湖倉一體。兩年前可能還是探索性方向,但如今國内已有更多實踐将資料湖和資料庫優勢結合起來,這在一體化方向上得到了認可,特别是随着人工智能的興起,資料湖的優點被放大,與資料倉庫平起平坐,追求兩者的優勢已成為一個原則。

然後 IoT 成為新的熱點,我覺得對了一半。随着智能制造和智能汽車的興起,這些領域的大規模資料正成為新的發展方向,是目前資料産生端最大的增量。但 IoT 資料采集和處理,目前仍處于早期階段,畢竟大多數企業沒有部署很多 IoT 類裝置,相關應用也在早期。

最後還有一個很明确的趨勢:AI 将成為資料庫、資料平台的一等公民。在大語言模型爆火之前這個趨勢還不夠清晰,分析仍然是資料平台最主流的方向。大語言模型出現之後,人們将 BI 和 AI 視為并列的能力,甚至對 AI 的潛力期望更高。是以,許多平台都在聲稱擁有 AI 支援能力,無論是 Snowflake 還是 Databricks。在不久的将來,所有平台可能會考慮彌補這種能力的不足,例如半結構化資料的存儲和向量檢索等,這一方向已經很明确。

InfoQ:LLM 是目前的熱門話題,您認為 LLM 的到來,能給大資料企業帶來哪些改變?

關濤: 大模型給企業帶來的改變範圍很廣。它可以幫助企業取代許多人的工作,例如資料開發、資料調優、資料庫管理者(DBA)等。甚至在客服領域,大約百分之七八十的工作已經被機器替代了。許多重複性工作,如基礎的預算管理、初級的技術核驗,甚至審計和财務工作等,都可以在一定程度上通過大模型輔助完成,進而提升工作效率。

另一個方面,大模型的成功依賴于三個要素:模型、資料和算力。模型目前比較同質化,算力取決于資金支援能力,而資料反而成為至關重要的因素。擁有優質專業的資料能夠使模型更加精準。是以,如果某個企業在資料領域具有獨特的優勢,當大模型時代來臨時,它将具備額外的競争力。

舉個例子,之前 Bloomberg 公司釋出了一款名為“BloombergGPT”的大模型,專注于新聞和财經領域。由于在這個領域積累了豐富的資料,其生成的大模型在知識深度和邏輯結構方面更為優越。這使得他們能夠為客戶提供更有價值的服務,進而獲得更多收益。

另外,大模型在互動方面有着出色的表現。我們所談論的大型模型實際上是語言模型,它最擅長于以自然語言的方式進行互動,你可以用語言提問,它以語言方式回答。大型模型在互動方面可能是其主要應用領域。但在這個領域内,它可以帶來很多改變。

是以這個問題的答案,即大模型給企業帶來哪些改變,是有三個主要改變。首先,它可以大幅提升效率,可以成為大資料企業的核心戰略;第二,如果你擁有優質獨特的資料,結合大模型,可以帶來額外的核心競争力。第三,大幅降低使用資料平台的門檻(通過自然語言和資料平台互動),資料平台可以突破原有的限制,開放給所有人,例如高管可能不會寫 SQL 或程式設計,但通過大模型,可以輕松與系統進行溝通。這種轉變可以使企業從隻有 20%的人能夠使用資料平台提升到所有人,效率的提升是巨大的,甚至可以說是颠覆性的。

InfoQ:GPT 浪潮到來之後,對于一般企業來講,要想讓企業資料結合 LLM 并發揮出資料的價值,傳統的資料平台最需要補齊的環節是什麼?為什麼?

關濤:從大的邏輯上來說,需要将 AI 作為核心功能融入資料平台。以往很多資料平台将分析或 BI 作為唯一設計目标,現在需要将資料與 AI 結合,将 AI 也作為一等公民。這是一個較大的轉變。資料平台架構需要進一步更新,同時能擴充 BI+AI。

具體而言,首先是存儲層面,需要額外支援半結構化和非結構化資料的處理。其次,在資料管理方面,需要支援所謂的“異構”資料管理能力,涵蓋非結構化和半結構化資料的統一管理。第三,保持資料的開放性,支援多種引擎對接。

第二個方面是計算層面,需要支援基礎的功能,例如針對大型模型的計算。這涉及一些細節技術,如向量存儲和向量檢索的能力。此外,還涉及到處理非結構化資料,如圖像資料的識别和淨化資料的打通,以及在計算層面針對大規模的 Finetune 和向量檢索。

最後一點是保持架構的開放性,能夠有更好的插件化體系。目前 AI 鍊路還在快速演進中,變化很多。企業基礎設施需要能保持靈活性。插件化體系本身可以通過 UDF、FunctionCompute 或者專門的 PipelineManagement 系統來解決。

特别的,對于 LLM,目前針對 LLM 應用的元件已有很多,比如 LangChain、向量資料庫、LLM runtime,這些組合可以很容易搭建起來一個端到端 LLM 服務鍊路。很多新興的更易用的 LLMOps 元件都在湧現,比如Lepton.ai, XInference。

為什麼需要一套新的系統?

InfoQ:與流行的開源産品 Spark/Flink/Clickhouse、以及 SaaS 化的 Snowflake 相比,雲器具備的技術差異點是什麼?

關濤:雲器科技 Lakehouse 是通過基于增量計算範式的一個引擎覆寫批、流、互動三種典型場景,并通過類似 Snowflake 的 SaaS 模式給客戶提供服務。

題目中的三個開源産品,它們分别代表了資料分析領域三種主流的計算形式,總結為批處理、流處理和互動分析。這三個模式通常組合在一起,形成一個較為完善的資料分析平台。這種組合在開源領域中是一個典型的形式,稱之為 Lambda 架構。

Lambda 架構存在架構複雜、資料存儲、管理、語義不統一等諸多問題。而雲器在技術方面的優勢是通過一套系統來打破這種組合式架構,實作資料存儲的統一、資料管理的統一、使用者語義的統一、開發體驗的統一,以及提高效率、降低成本的效果。

與 Snowflake 的對比,首先是相似之處,我們都是基于 SaaS 模式提供服務。通過雲上的即開即用模式為客戶提供服務。與開源模式不同,使用者不需要購買硬體、部署和運維。SaaS 化的解決方案使用者無需擔憂這些事務。

與 Snowflake 的不同之處在于,Snowflake 還是更偏數倉,對資料湖的支援相對較弱,主要聯邦查詢上做了一些工作。雲器從設計之初就基于原生 Lakehouse 的新架構,這種新架構不僅僅适用于資料分析,還支援其他不同的工作負載。另一方面,Snowflake 更偏向批處理,互動分析在其次,并且幾乎沒有流的能力。而雲器系則緻力于将流處理、批處理、互動分析這三條線都統一起來。

InfoQ:那麼雲器是重新開發了一套系統嗎?

關濤: 對,整個系統都是從零開發的。我們引入了一個新的計算範式,稱為增量計算。

一體化是我們第一天就追求的設計方向。通過分析已有的批處理、流計算和互動分析三種計算範式,它們各自有自己的優化方向和設計模式,有不同的存儲計算表達,無法彼此取代。具體的差異可以看下面這張表格。

是以,我們提出了第四種新的計算方式,即增量計算。我們希望通過增量計算來統一這三種傳統計算模式,最終形成一個一體化的引擎。

比 Spark 快 9 倍,超越 ClickHouse,在大語言模型時代建構新資料平台

InfoQ:業界也有基于 Flink 的增量入湖解決方案?

關濤: 對,Flink 是比較早去嘗試做一體化的解決方案,并且提出過“流批一體”的口号,目前看落地案例并不太多。這實際上是因為流處理和批處理的計算方式不同,存儲系統也不同。

比 Spark 快 9 倍,超越 ClickHouse,在大語言模型時代建構新資料平台

雲器的方案,我們通過通用的計算方式來統一流批互動模式,然後我們使用一套通用的存儲來支援整個存儲層面。這個存儲的形态是湖倉一體的增量存儲,是一種通用增量存儲。它和頂層的計算引擎是一個互相支撐的關系。通用的增量存儲不僅僅能為我們之前談到的支援增量計算的統一資料分析引擎提供服務,還可以支援其他的 AI 引擎。這就是我們的目标,也是與其他産品的不同之處。

InfoQ:您能更具體的解釋一下性能提升的原理嗎?

關濤: 首先是基礎引擎的能力。目前資料分析引擎架構選型已經比較穩定,比如向量化引擎、完全的列式存儲、存算分離的設計、基于代價的優化器,采用了 Native 的代碼等方法。這些都展現在我們的産品中(主要語言為 C++)。這些特性保證我們引擎性能達到高水準。

但上述技術,我們認為不算創新,是 State of the art 的水準,是我們的基礎能力。創新來自于下面幾方向:

除了這些基礎能力之外,我認為剛才提到的增量計算是一個關鍵方向。通過增量計算,我們在進行計算時可以嘗試記住先前已經計算過的部分,而無需再次計算。這些先前計算過的部分往往可以表示為物化視圖或者 Result Cache。這些物化視圖可以在透明的情況下被使用者的查詢引用。舉個例子,當使用者發出查詢時,如果已經計算過的結果被保留,而且隻需計算新增加的部分,這将極大地提升引擎的性能。

此外,我們還擁有一種稱為“AI4D”的技術。我們可以通過 AI 學習的方法優化資料存儲和計算。例如,你經常對兩張表進行 Join 操作,這些計算是重複的,那就可以被預計算起來。當預計算的結果滿足你的查詢條件時,可以直接傳回。實際上,這也是一種增量計算,隻是加入了智能化的資料計算和準備過程。是一個 Learn based 過程,通過 AI 的方式自動化的優化。通過這種自動化的優化方式,同樣可以大幅提升性能。而且這種優化可以對使用者透明。可以了解成資料平台的自動駕駛(Autopilot)。

總結一下,我認為我們在引擎的實作方面幾乎達到了目前業界最好水準,他是個基礎。但更大的提升潛力主要集中在兩個方面:第一,增量計算,在計算範式上的創新;第二,AI4D 自動優化的創新。這兩者的提升都能極大地提升性能,并有好的潛力。

InfoQ: 這樣的架構是否已經有落地,實際效果如何?

關濤: 是的,我們已經在一些客戶中得到了應用。

我們的産品有幾個主要賣點能得到客戶認可。首先,許多企業認為選擇更輕的 SaaS 架構是一個好選擇。客戶認為目前開源自建架構已經不能帶來技術先進性和差異化,同時自建架構需要重資産投入,包括硬體和團隊,這種模式已經老舊。相比之下,雲器的輕量化、多雲的雲中立的 SaaS 模式更具吸引力。許多客戶正是出于這個原因而選擇我們。

其次是在性能方面的表現。無論是批處理、互動還是流處理,對比現有系統,我們都實作了顯著的高性能。例如,在批處理方面,我們的性能比 Spark 快了九倍。在互動問題上,我們的性能也可能比市場上最優秀的産品 ClickHouse 更快一些。這些性能提升對許多客戶來說都是非常關鍵的,尤其是當性能提升達到倍級水準時。

最後就是許多客戶對我們試圖解決 Lambda 組裝式架構帶來的一系列問題感興趣,認為這是我們的核心突破點,覺得這是很好的技術創新。他們在目前架構上能夠切身體會到,Lambda 架構将幾個不同計算引擎組合在一起可能會引發各種問題。雲器通過一體化引擎統一資料分析平台,使得使用者在需要調整業務時,可以在不同的計算範式之間靈活切換,這種模式對他們非常有幫助。例如,在國内一家知名的智能制造新能源汽車廠商中,POC 測試結果顯示雲器平台能夠以非常低的成本實作全鍊路實時化,他們對這個效果非常滿意。

大語言模型時代的資料平台

InfoQ:BI 和 AI/ML 正在逐漸融合,一些企業想提供一站式服務,但從資料庫角度入手對資料管理有優勢,從湖倉出發則更利于機器學習,那麼用一個平台結合這兩方面的優勢,其挑戰主要來自哪裡?

關濤: 我認為主要的挑戰來自如下幾個方面。

首先是系統解耦/開放與高性能的平衡。我之前提到,很多數倉系統是存儲與計算一對一的系統,其存儲就針對上層的計算做專門優化來做到高性能。然而,如果我們希望支援多種不同類型的工作負載,比如存儲系統同時支援分析引擎和 AI 引擎,存儲與計算的解耦和開放性就非常關鍵。

這裡難點在于解耦和開放的同時能繼續保持高性能。實作這種子產品間的解耦,在同時追求高性能的平衡上是相對困難的挑戰。這就是我認為的第一個方面。

另一個挑戰是兩種計算模式的關聯。資料分析領域 SQL 是主流語言,AI 領域 Python 最流行,如何友善地程式設計兩種系統,是關鍵挑戰。SQLML、SQL+UDF 内嵌 Python、Python 的 SQLAlchemy 庫、原生 Python 接口等都是選擇。

最後一個挑戰是新的面向 AI 的資料鍊路。之前資料分析 BI 的全鍊路比較成熟,資料內建、ETL/ELT、模組化、分析、BI 等模式清楚。AI 鍊路正在重新建構中,元件和模式與 BI 都不相同。這部分對業界都是新課題,目前有非常多的架構/平台在嘗試。

InfoQ:要支援 BI+AI/ML,甚至是 LLM,資料平台也需要逐漸支援 OLAP、OLTP、流、Graph、向量?相容這麼多種類的話,您認為比較好的解決方案會是什麼樣的?

關濤: 一體化有天然的架構簡單的優勢,是技術領域的“聖杯”。業界一直未停止探索。

如果我們把資料領域分成 OLTP、OLAP、AI 三個大方向,我認為,OLAP 資料分析領域内的典型場景基本固定,Lambda 架構問題業界有明确共識,一體化架構統一所有分析類的 Workload 是未來方向。這也是雲器在嘗試的方向。從我們目前的探索和實踐來看,流處理、批處理和互動,這三類計算範式是可以被統一處理的。

OLTP 與 OLAP 的一體化,HTAP 也是業界方向。部分産品在這個方向發力,也有很多客戶落地場景。

OLAP+AI 一體化是目前的熱點,這兩類資料的重合度以及互動的訴求都夠強。Databricks 一直主打這個方向,它一直堅持 Data+AI 的戰略。Snowflake 從 OLAP 領域出發,最近也在加速同時支援 AI 的布局,比如一直在發力的 SnowPark。

就雲器科技本身的定位,是用單一引擎的方式統一 OLAP 中三個計算範式。同時通過 Lakehouse 架構支援 AI 的能力,支援 SQL 與 Python 混合程式設計,支援插件化的 AIOps 支援。

InfoQ:在“相容 AI”的要求下,資料平台發展得越來越複雜,那麼考量一個平台的好處主要看哪些方面?

關濤: 個人認為可以按照如下方式評價。

首先是資料的全頻譜。存儲平台能否存儲和管理全域資料。就像之前提到的湖倉一體,這是一個明确的方向,将資料湖和資料倉融合在一起,再加上統一的全域資料接入,同時保持開放性。

其次,能否同時支援資料分析和其它計算範式。SQL 引擎和 AI 引擎都能支援好。

再就是系統必須具備擴充性的能力。所謂的擴充性,就是在面對未來的變化時,能夠通過插件化的方式快速內建其他子產品,對資源排程、系統整體設計都有一定考驗。在這裡有個建議,就是可以使用雲模式來做設計,這樣才能更容易達到這個目标。因為雲的模式在資源彈性和子產品豐富度方面都表現出色。

InfoQ:兩年之後,我們再展望未來,您覺得未來計算平台領域會發生哪些變化?發展趨勢是怎樣的?

關濤: 我想大緻會有以下幾個趨勢。

第一個,資料加速爆炸式增長。IoT 類的資料加上 Agent 類的資料,将成為資料增長的新動力。這其中的背景是,資料的第一波增長源自于資料庫,例如賬單報表類的資料,雖然資料量較小,但對于銀行等機構來說具有很高的價值。而資料的第二波爆發則主要發生在大資料領域。許多人的行為資料被記錄下來,比如你在淘寶上購買了什麼商品、浏覽了什麼内容等。這些行為資料最終會轉化為使用者畫像和個性化推薦等服務的一部分。這些資料是過去 20 年資料增長的核心推動力和來源。第三波增長來源于人類行為資料以及裝置資料,比如車輛上的攝像頭、家中的智能開關等。随着 AI 的興起,許多智能機器人也會湧現出來,它們會廣泛應用于各個行業,是以這些智能機器人産生的資料也會被自動收集起來,構成資料的第三波增長點。

與此同時,還有一個平行的增長點,即大規模模型和深度學習帶來的半結構化資料處理能力的顯著增強,這類資料也會持續湧現。是以,資料的爆炸式增長仍然是一個重要趨勢。

第二個,資料分析的架構将趨于統一。在資料分析領域,大家最終可能都會向着增量計算的方向發展,進而逐漸打破 Lambda 架構的限制,一體化的架構會成為未來。跟我們前兩年預測湖倉一體會成為未來一樣,希望一體化架構兩年後也會真正落地。

第三個,大語言模型帶來了半結構化和非結構化資料處理能力的顯著增強。以前處理這些資料幾乎是很困難的,但現在已經變得相對容易。以前閱讀一個 PDF 檔案,很難理清其中的内容,而現在這方面的處理變得更加簡便。在這個層面上,如果以前我們隻能處理結構化資料,現在又多了兩類,半結構化和非結構化資料。處理這些資料能力的顯著增強,勢必會帶來存儲和計算的需求顯著增長。

第四個,大語言模型到來,資料交換/隐私保護會得到更多投資。資料的安全和隐私的要求進一步提升了,資料共享的需求變得更加迫切。因為資料本質上就是知識,而這些知識可以提升智力水準,進而變成一種隐含的價值。是以,資料隐私保護和資料共享之間的平衡成為一個重要議題,特别是在大規模模型的應用下,可能會引發顯著的變化。目前我們尚不清楚如何應對這一挑戰。例如,很多企業不允許使用公開的大語言模型服務,尤其在美國,主要是因為擔心在與模型互動時可能導緻企業内部隐私洩露。而一旦模型被私有化部署,其知識範圍可能會受限,無法擷取與外部互動的内容。是以,資料交換和隐私保護變得尤為關鍵,這可能是未來的一個發展趨勢。

第五個,BI+AI 成為資料平台必選項,資料平台需要内置或插件化支援異構資料、finetune、向量檢索等 AIOps 技術。AI 讓所有的平台智能化,資料平台的智能化也成為必然。大幅降低使用門檻的資料平台會被更多人所使用,是以這也給“平台傻瓜化”帶來額外的要求。

延伸閱讀:

讓大模型融入工作的每個環節,資料巨頭 Databricks 讓生成式 AI 平民化 | 專訪李潇

計算範式巨變前夜,雲器釋出多雲及一體化資料平台雲器 Lakehouse

雲器科技宣布完成數億元融資,打造多雲及一體化資料平台

《再談資料架構》暨雲器科技産品釋出會

活動推薦

以「啟航·AIGC 軟體工程變革」為主題的 QCon 全球軟體開發大會·北京站将于 9 月 3-5 日在北京•富力萬麗酒店舉辦,此次大會策劃了從 BI 到 BI+AI,新計算範式下的大資料平台、大前端新場景探索、大前端融合提效、大模型應用落地、面向 AI 的存儲、AIGC 浪潮下的研發效能提升、LLMOps、異構計算、微服務架構治理、業務安全技術、建構未來軟體的程式設計語言、FinOps 等近 30 個精彩專題。

比 Spark 快 9 倍,超越 ClickHouse,在大語言模型時代建構新資料平台

咨詢購票優惠資訊可聯系票務經理 18514549229(微信同手機号)。點選連結即可檢視 QCon 北京站完整日程,期待與各位開發者現場交流。

讀者福利

比 Spark 快 9 倍,超越 ClickHouse,在大語言模型時代建構新資料平台

繼續閱讀