天天看點

對話賈揚清、關濤、張伯翰:AI 平民化下,資料架構将被徹底颠覆?

作者:InfoQ

作者 | 張俊寶

深度學習誕生 10 年,LLM (大語言模型技術)終于帶來 AI 平民化。ChatGPT 爆火後,AIGC 浪潮席卷全球。AI 作畫、AI 寫歌、AI 生成視訊…… 全球大廠紛紛推出 AIGC 應用,讓 AI 變得“觸手可及”。從技術角度看,基于海量資料建構的大模型能夠進行相對獨立的推理和判斷,讓企業看到了 AI 與 Data 的技術融合已經成為當下重要的發展趨勢之一。

如今,AI 與企業的資料基礎設施融合到了什麼程度?企業是否要選擇一款 AI 資料平台?AI for Data 如今在企業生産中發揮着怎樣的價值?為了探讨問題的答案,InfoQ 聯合雲器科技策劃了《極客有約》特别版——《再談資料架構》系列直播。第二期,我們邀請到了 前阿裡巴巴副總裁賈揚清、雲器科技聯合創始人 & CTO 關濤 以及 OtterTune 聯合創始人張伯翰,暢談以下話題:

  1. 資料庫、大資料和 AI,哪個更重要?
  2. “AI for Data”與“Data for AI”有何不同?
  3. 企業資料平台要不要結合 AI?
  4. “模型即資料”?模型平台可以完全替代資料平台嗎?
  5. 企業需要怎樣的一體化的 AI 資料平台?

資料庫、大資料和 AI,哪個更重要?

賈揚清:資料庫、大資料和 AI 齊頭并進、相輔相成。這一輪大模型創業公司當中,有很多公司首先要招資料處理、資料清洗、資料标注、資料挖掘等等這一系列的工程師——又回到了資料上。

張伯翰:資料庫、大資料和 AI 三者之間兩兩融合。當 AI 資料量特别大的時候就需要去考慮分布式模型訓練,這是大資料和 AI 融合要考慮的點。AI 和資料庫之間的關系要從 Data for AI 和 AI for Data 兩個角度來看。

關濤:資料平台需要把 AI 作為“一等公民”支援,而不是隻做數倉,這就是 Data for AI 的關鍵。同時,DBA 的這種人工調優的模式并不高效,怎麼解放人力 / 提升效率?AI for Data 就是一個關鍵項。

InfoQ:資料庫、大資料和 AI 都是當下熱門的技術方向,三者之間的關系是怎樣的?

賈揚清:我覺得資料跟 AI 一直是相輔相成的關系。2015-2016 年,行業内認為做 AI 還是應該關注計算和算法,尋找更優的模型在現有資料庫 / 資料集上面進行更好地統計。ImageNet 資料集應該是大家第一次認識到:資料能夠賦能 AI 做更加寬廣的探索。ImageNet 以及當時一系列的自然語言、語音等子產品的資料讓行業在神經網絡方面有更多的探索。

是以我認為在過去十年當中,我們其實是在資料和另外一個系統的紅利上面來尋找更多更好的算法,比如 CNN、RNN、LSTM,包括現在比較流行的 GPT 等一系列的算法。如今,算法又發展到了一個新高度。基于像 Transformer 這樣的模式,算法能夠有能力來處理,或者說了解、壓縮更多資料了。

是以大家可以看到,這一輪行業内的大模型創業公司當中,有很多公司首先要招資料處理、資料清洗、資料标注、資料挖掘等等這一系列的工程師——又回到了資料上。随着資料量越來越大,算法越來越複雜,系統變得越來越重要。

2011 年行業内讨論大模型的時候,有一種說法叫做:參數伺服器 (Parameter server)。當時,大家以類似網際網路的傳統思維來做大模型:用一堆相對而言性能比較差、不穩定的機器來解決共同訓練的問題。但是随着算法越來越多、越來越複雜,傳統的高性能計算系統變得越來越流行。

如今,我們會發現所有人都在買 GPU 機器。系統變得越來越大并且和傳統的高性能計算的結合程度越來越深之後,我們能夠以更加高的效率來處理一系列的資料和一些算法,我覺得這個是今天我們看到的,資料、人工智能和系統這三塊齊頭并進的一個狀态。

其實一直以來,人工智能和資料領域都有融合的部分。在網際網路時代,人工智能和資料領域融合的地方叫做廣告搜尋和推薦。

張伯翰:資料庫、大資料和 AI 都是現在比較火的話題,我覺得三者之間是兩兩融合的關系。資料庫和大資料方面,像 Databricks、Snowflake 主要在做 Data warehouse 或者 ETL 的資料處理,也在往 AI 方面發展,方向上都是往資料方面融合的。談及大資料和 AI 的融合,其實我們可以看到 Spark 也做了很多 AI 方向的布局,如 SparkML。我覺得大資料是平台化的,當 AI 資料量特别大的時候就需要去考慮分布式模型訓練,這是大資料和 AI 融合要考慮的點。

AI 和資料庫之間的關系分為兩類,一個 DB for AI,另一個是 AI for DB。目前,有些企業在資料庫内部做一些機器學習方面的一些工作,可以省去 ETL 或者是各種資料倒來倒去的操作,這個是 AI for DB。我覺得這方面還是挺有市場需求的,因為很多時候企業不需要很複雜的 AI 模型,僅需要去做一些簡單的資料處理和預測工作。我是做資料庫的,是以主要關注 AI for DB。企業想利用 AI 來優化資料庫,可以通過一些訓練的資料去學習優化資料庫的經驗和規則、自動大規模優化資料庫。

關濤:伯翰通常把 Snowflake 定義到資料庫領域裡邊,我把他可能更細分到 BigData;資料庫領域更像指代 transactional Processing(事務處理),是以我把像 Oracle 這類的公司定義成資料庫的公司,然後把 Snowflake、Databricks 定義成大資料的公司,其他還有一些公司歸屬于 AI 類。

三個領域從發展階段看,如下圖所示。橫軸可以了解為時間,共 5 個階段;縱軸可以了解為影響力和預期;圖上的曲線表現了技術發展到高熱度期、發展期以及普惠期的過程。

對話賈揚清、關濤、張伯翰:AI 平民化下,資料架構将被徹底颠覆?

資料庫發展了 50 年,如果以 Oracle 為代表,那麼它處在下圖中的紅圈位置,表示如今處在普惠期。BigData 發展了 20 年,大概在綠圈的位置。其中,美國大資料市場可能從發展期可能到了普惠期,中國大資料市場可能從爬升期開始到了發展期。

對話賈揚清、關濤、張伯翰:AI 平民化下,資料架構将被徹底颠覆?

對比這兩張圖,你會發現:資料庫發展了 50 年,從營收層面看,Oracle 的營收實際上是 Snowflake 的 20 倍。當一個領域進入到普惠期的時候,它會有非常高的市場占有率。如果從增長率的角度來看,Oracle 低一些,大概 17%;Snowflake 是 Oracle 的 4 倍,大概 60% 多。如果按照這個增速的話,理論上大概也許 8 年半到 9 年的時候,Snowflake 能超越 Oracle。技術的發展過程可見一斑。

我們用一個例子來了解這三者的融合關系。在視訊直播推薦場景,我們發現很多客戶需要通過 AI 的方式把很多非結構化的資料抽取出來用于推薦,同時沉澱結構化的使用者畫像資料存放在資料庫中。這兩個資料一定要融合在一起,因為推薦系統左邊是推薦的内容,右邊是客戶的客群,隻有通過推薦的内容在客群上做圈選融合在一起,才能做出推薦系統。我們發現,企業需要用 AI 的能力去做部分的資料計算,同時需要用資料系統做很多計算。

伯翰剛才講了兩個大的方向,一個方向叫做 Data for AI,一個叫做 AI for Data。前者大家可能比較好了解,剛才我舉的那個推薦的例子就是這樣;後者其實是 AI for system 的一個子集,伯翰他們做的是 AI for Database,還有 AI for BigData system,甚至 AI for AI system。

AI for Data 實際上是目前比較火的一個創業方向。很多人覺得 DBA 的這種靠人工調優的模式其實不太适用,而且大資料模型其實帶來了更好的人的智能體的能力,它真的可以替代人做很多事情。怎麼解放人力?AI for Data 就是一個關鍵項。

“AI for Data”與“Data for AI”有何不同?

賈揚清:我更關注 Data for AI 中海量異構資料存儲和管理,AI 計算範式的支援,以及 Data 和 AI 結合帶來的新産品形态。

張伯翰:我發現 DBA 越來越少了,如果資料庫能自己調優自己的話,對整個行業是一個很好的事。從更深的技術角度來看,依賴經驗和通過 AI 機器學習經驗,兩者并不是二選一的情況,而是互相補充的。

賈揚清:AI for Data 可能是大家在通用系統領域相對比較容易了解的一個事情,因為任何一個系統都有非常多的需要調優、管控等等的工作。以前大家靠經驗或者一些名額來判斷什麼時候拉起機器做計算,現在大家可以基于時序的統計資料等方式加上一個預測的算法來做,相當于現在把以前的一些需要在系統裡面做決策的過程,交給 AI 來簡化。

我自己更關注 Data for AI 的三方面問題。

第一,海量異構資料存儲和管理。

第二,對 AI 計算範式的支援。Data for AI 在 AI 算法内部不隻是作為一個 Data Provider,也有很多的應用。

譬如說我們在做大模型,包括在做廣告推薦的時候,經常會遇到一個算法或者一個子產品叫做 embedding。embedding 的意思是我們把很多的文本變成一個高維的資料的向量,把它放到一個很大的 KV 裡頭去做。以前我在 Facebook 的時候,也遇到過這樣的情況:我自己來管理哪些 embedding 更熱,哪些 embedding 更冷,然後來做 cache 等等。

後來,我們發現這就是一個标準的 KV 資料庫,以前 KV 資料庫裡面所有的應用、想法、思路,都可以相應地互通過來。這件事情讓我意識到,Data for AI 在 AI 算法内部不光隻是作為一個 Data Provider,也有很多的應用。

第三,Data 和 AI 的結合産生了新的各種各樣的産品形态,比如最近大家比較關注的向量資料庫。其實早在 2017 年的時候,我們在 Facebook 的時候和 AI 的研究院一塊做了一個算法叫做 FaaS,應該叫 Facebook Approximate Nearest Neighbor Search。今天,很多的向量資料庫的背後也都是用 FaaS 來做它的一個核心引擎。FaaS 更多專注在計算,需要疊加更多内容才能變成一個向量資料庫産品。

向量資料庫公司 Pinecone 融了很多錢,那麼它的業務空間有多大,它是否和傳統的資料庫之間有足夠的 differentiate。這個事情目前我們還不太确定,但是我們比較确定的一點是,因為各種新的計算模式的産生,使得我們在資料庫的領域和 AI 的領域有更多的結合,結合出一個“兩邊都像,但是兩邊都得用到,和以前的形态都不太一樣”這樣一種新的産品形态。

張伯翰:AI for Data 的做法其實就是通過機器學習或者 AI,或者模型去學習那些規則。我是做 AI for Database 的,其實是 AI for system 的一個子集,也可以是 AI for Spark,AI for TensorFlow,我們目前主要是做 AI for PostgreSQL and AI for MySQL,做資料庫的調優。

Oracle 幾年前宣布了自治化資料庫,大概的意思是使用 AI 讓資料庫更加智能,減少 DBA 的負擔,相當于自己優化自己。MySQL 也做了自己的自治化資料庫。将 AI 與自動優化結合不僅是資料庫廠商的一個技術方向,也是客戶認可的趨勢。我發現 DBA 越來越少了,如果資料庫能自己調優自己的話,對整個行業是一個很好的事。從更深的技術角度來看,依賴經驗和通過 AI 機器學習經驗,兩者并不是二選一的情況,而是互相補充的。客戶關注的是可靠性和可解釋性,其中可解釋性非常重要,我認為不可能是隻使用 AI 就能勝任的。

此外,我們發現很多機器學習的一些實踐,在 AI for Databricks 實踐,最後發現難點并不是 AI 的模型,而是怎麼去和資料庫結合,怎麼收集這些訓練資料,怎麼把推薦自動地放到資料庫上。比如,有些參數的調整是需要重新開機資料庫才能生效的,但是大部分的生産資料庫不可能支援重新開機資料庫改參數,因為這樣會有挺多的當機時間,風險較大。這個難點是我們創業這段時間看到的,也是我們資料庫公司重點在做的方向。我們做的事情就是讓一個完全不懂資料庫的人能更好地去優化資料庫,能更快解決資料庫的問題。

企業資料平台要不要結合 AI?

關濤:與 AI 結合其實是很新的一個技術方向,也還遠沒有定型,平台建設容易踏空 / 落後。是以,企業資料平台的設計需要考慮面向未來的擴充,比如開放性和可插拔 AI 計算能力。

關濤:湖倉一體的架構是下一代資料平台的必選項。系統設計的簡單化(一體化)是終極目标。

關濤:大家都會覺得關系型的計算模型可能不夠,需要有更多 AI 的能力。從這個角度出發看企業的痛點,我大概總結了三點。

第一,現在傳統數倉架構其實并不能夠很好地支撐 AI。目前很多企業的資料基礎設施不是為 AI 設計的,還是隻面向資料。從資料庫出發,資料庫是純結構化資料然後做關系計算的,你讓一個比如說 MySQL 去存音視圖的資料其實不太合适。很多資料庫甚至很多數倉的設計都偏重于結構化資料分析結構,它們對新的存儲媒體的支援,對新的計算媒體的支援,還有對 AI 的計算範式的支援其實都不夠好。

第二,AI 的整個工具鍊自有特色,讓建設、維護和系統本身的複雜度越來越高。你會發現因為 AI 的 workload 進來之後,AI 會使得原有的資料平台的系統設計更複雜。這會讓系統變成一個非常專家和 Geek 的系統,讓一個公司裡可能隻有少數的幾個人能夠 touch 它。這意味着,這個系統能夠真正被用起來的機會很少。

第三,因為與 AI 結合其實是很新的一個技術方向,也還遠沒有定型,平台建設容易踏空 / 落後。面向未來的系統的終态,最終很難有一個定論。包括像 Snowflake 和 Databricks,他們 AI 方向的收購和合作也是剛剛展開。是以 企業資料平台設計需要考慮面向未來的擴充,比如開放性和可插拔 AI 計算能力。

對于這三個痛點,我也有兩點建議:

第一,未來的設計這個系統一定是要把存儲和計算考慮進去,要支撐多種不同的負載,要支援結構化、半結構化和非結構化的資料存儲,要支援其他的計算模型,簡而言之就是你的存儲體系要是能開放的。是以,湖倉架構可能是做資料平台建設上可能必須要考慮的一個點,這個資料平台要兼顧效率和多樣性。

第二,因為 Large Language Model 和 AI 的很多技術還是非常新,還在不斷地變化,可以說可能是按星期為次元在做疊代,在平台的 Infra 的疊代中,不可能保持一樣的疊代速度,因為對于公司來講成本太高了,保證自己的平台有良好的擴充性就好了。擴充性包括剛剛提到的資料開放性和管理以及計算靈活且能夠擴充。

我們雲器科技目前在做的産品就是為了解決這些問題,是以在底層架構裡采用了湖倉的架構。雖然當時大語言模型熱度并沒有那麼高,但我們依然標明了這個方向做了開放的設計。我們的資料雖然放在數倉裡,但它是開放的,資料可以被其他的引擎消費,是以從這個層面,我們在做平台擴充性的設計的時候其實兼顧了這一點。計算靈活可擴充方面,我們支援比如說 Python 的代碼和 SQL 的混編,保證計算的開放和管理,保證平台具有擴充性,能夠面向未來更多的技術突破做疊代。

目前,雲器科技不會做大語言模型,但會和做大語言模型的公司合作,更好地做支援。

模型平台可以完全替代資料平台嗎?

賈揚清:無論是資料平台還是 AI 平台都沒法來用自己的經驗解決對方的問題。資料平台和模型平台是互相結合的關系。

關濤:資料庫 / 大資料系統已經是一個必選項了,AI 可能目前還是可選項。

關濤:好的資料平台架構三個标準:1) 能容納管理異構資料 2) 能支援多種計算形态 3) 非技術人員能*直接*用起來平台(需要平台非常簡單易用)。

InfoQ:有一種說法是叫資料即模型,是以這是否意味着對于企業而言不需要資料平台了,直接用模型平台就可以了?

賈揚清:這個是個挺好的問題,從技術跟業務這兩個角度可能回答會稍微不一樣一點,我就拿 Snowflake 和 Databricks 最近他們的一些動作來解釋。

從技術的角度來看,其實目前資料和 AI 的計算是分開的。資料這一塊我們更關注 IO 資料等等這一系列的事情;AI 這一塊我們更加關注計算,比如說利用像 GPU 這種,高性能計算的資源來做資料的分析等等。這也是為什麼從技術上來講,今天 無論是資料平台還是 AI 平台都沒法來用自己的經驗解決對方的問題,因為技術上這兩個其實就是很不一樣的。這也是為什麼說 Databricks 沒法自己原生地長出一個 AI 東西來,Snowflake 長不出來。

從應用的角度或者從需求的角度來講,其實的确使用者會越來越多地把資料分析的需求跟 AI 的需求結合起來。從産品的角度來講,單純做資料是比較困難的,單純做 AI 也比較困難。這也是為什麼傳統的資料公司也會需要有 AI 的能力。大家在解決這個問題的時候發現,技術和産品不能分别單獨來看,想要擁有完整的産品體驗,要麼選擇合作,要麼選擇購買。當然這是我個人的一個觀點,并不一定對,Databricks 的收購以及 Snowflake 和英偉達合作,一定程度上也是說找到一個自己的 counterpart,然後能夠來一起解決這樣一個統一的産品問題。

回到你的問題,我覺得就是 資料平台跟模型平台肯定都需要,而且很有可能是一個互相結合的關系。把它放在企業内部,有點像采購不同的标準化的元件,然後把自己的業務做好的過程。

InfoQ:企業如何判斷是否要進行資料架構或者說資料平台的更新和疊代?

賈揚清:我覺得可能從兩個角度,第一個角度,目前在做大資料和 AI 的創業企業處在“前狼後虎”的狀态中,不僅需要有大量的資源來做大模型,還需要找到大模型落地場景并且與其他系統相連接配接。

我在矽谷,在全球其他地方都看見了這樣的一個情況:企業在看到 AI 的可能性的時候,提出 AI 戰略,也有業務工程師、資料工程師、算法工程師、資料科學家,也聽到了很多開源大模型,但是都無法用起來。

大家都在看着大模型“臨淵羨魚”。雖然開源的模型企業都有,但是和業務系統的對接很難。如果說有那麼一個解決方案,能夠讓企業裡面的業務工程師、資料工程師不懂 AI,也不知道 GPU 是什麼東西,但是能夠 5 分鐘之内甚至 5 秒鐘之内拉起一個 HuggingFace 大模型;一個鐘頭之後,把現有的資料應用和這個模型跑起來,能先溜一溜;一天之内 hopefully 能夠連接配接到業務系統,看看到底效果怎麼樣。這樣的話我們嘗試的這個飛輪轉起來之後,就能夠從今天的一個抽象的大模型,到将來有更多的人能夠把大模型跟應用結合起來,這樣不斷地來疊代來搞出東西來。

是以除了訓練一個模型之外,怎麼樣讓大量的對于 AI 系統、對于 GPU、對于 AI 算法、數學沒有那麼深的了解,但是對自己的業務有很深的了解的企業能夠更加快地接觸到這些模型,能夠非常大規模地、非常高效地、非常迅速地拉起這些模型,把它對接到業務裡面去,這是一個挺大的機會。

模型是企業自己,算法是企業自己的,資料是企業自己的,但是工具是标準化地提供的,20 年前這個工具叫資料庫,Oracle、IBM 都提供了這個資料庫;十幾年前這個工具叫雲;AI 來了之後也有新一波的 AI 工具。

張伯翰:我覺得還是取決于公司的業務,還有資料的結構。現在開源資料庫還是非常流行的,如果是個開源系統的話内部阻力會小很多,我覺得這個也是個大趨勢。

關濤:其實資料是個資産,怎麼能釋放資産價值,實際上是現在每個企業都關心的問題。資料庫系統已經是一個必選項了,AI 可能目前還是可選項,大家都願意可能去嘗試它。其實之前我一直被問到一個問題,包括在阿裡的時候也被問到這樣的問題,因為我作為資料平台的建設者,他說你從你的評估标準看,你覺得我們的資料平台究竟是一個什麼樣的水準?我覺得有以下 3 個标準:

第一,資料平台究竟能夠容納什麼樣的資料。如果一個企業其實它有機會能采到很多的資料,但不能把這個資料儲存或者用起來的話,這個平台價值會下降。

第二,什麼樣的計算能力能夠讓這些資料的價值展現出來,這個就涉及剛才的觀點了,除了關系計算、SQL 的模式以外,AI 的計算能力包括傳統算法。大語言模型這些能力,其實都是用來釋放資料價值的。

第三,有多少人能夠把這個用起來。營運人員、銷售人員是不是能夠直接使用資料,是一個企業的資料平台是否夠先進、夠現代的一個标準。

基于這些标準出發面向未來去看的話,我們發現随着底層系統越來越複雜,越來越多的企業大多數情況下都會用很多 AI 的算法去做調優,因為這種方式其實會使得你上層的使用者變得非常簡單。

是以從這個視角看一個企業的資料平台在發展過程中,應該關注三點:第一,資料存儲是不是足夠豐富;第二,能否很好地擴充支撐更多的算力;第三,資料平台是否足夠簡單,能夠使運維成本降低,讓更多人能更好地用起來。

企業需要怎樣的一體化的 AI 資料平台?

賈揚清:一體化的 AI 資料平台最重要的一點其實就是好用和快捷。當一個平台做得越來越簡單的時候,業務企業可能就不需要資料科學家了。

關濤:CEO 要業務價值,CTO 要降本增效,業務團隊需要簡單易用。企業應該根據業務體量,選擇合适的多雲、湖倉架構的一體化資料平台,同時能支援 Data 和 AI。

InfoQ:我們發現,CEO 關注的是企業的整體的發展,看到了技術趨勢;CTO 關注企業整體的資料架構和業務結合。有的企業沒有資料科學家團隊,由産品總監在牽頭關注 AI 大模型等新技術趨勢。那麼,企業内部誰在進行 AI 落地技術和業務的決策?

關濤:這是一個特别好的問題。你剛才提到的這三類型的人代表企業三種不同的角色,三種不同的角色的人确實關注點不一樣,CEO 更關注的是這樣的一個平台,怎麼能夠幫助企業更好地實作價值,他甚至不太關注說你這個平台是個自建的還是購買的,隻要你的成本效益足夠達标就好了。他更關注怎麼能讓更多的人把這個平台用起來使得企業能更受益。這種情況通常是會推動平台向前演進的。

CTO 的角色可能并不完全一樣。我們跟很多企業的 CTO 溝通發現,他們提的第一個需求往往都是降本。這個可能跟目前的經濟狀态也相關,他想的就是說我怎麼能夠以更低的成本得到更好的價值,這是 CTO 的視角。

業務視角其實要來得更直接,比如說我們跟一個企業做合作想出一個報表的時候,把需求提一個單子給他們,這個單子流轉到他們那邊去排個期,排期回來再把這個單子拿回來,最終我們收回來這個資料,這個周期大概需要 3 天的時間。他們來跟我們聊,能不能更簡化這個過程甚至說能不能直接就做這件事情。

這件事情其實就資料平台本身來講,如果你會寫 SQL 的話,這個事情并不特别複雜。這裡面涉及一些資料模組化的問題,也可以通過 Data for AI 這種 AI for Data 這種方式來解決。剩下那半邊我能不能更快地做這個疊代,現在其實答案很可能是 yes,我們能夠通過不程式設計的方式直接和平台做互動,慢慢正在變成現實。

很多企業其實沒有資料科學家這個崗位,很可能是因為當一個平台做得越來越簡單的時候,這個崗位有可能都會被人工智能或者系統來替代。

InfoQ:很多時候企業的發展其實是資料在驅動。業務視角看,資料科學家往業務方向走一走,走着走着可能就變成這個業務裡面的 CEO 了。我剛才其實是舉了 3 個例子,CEO、CTO、資料科學家,其實代表的是企業可能是不同的規模,業務的多元化和單一化也決定着企業的結構可能是怎麼樣的。那麼,企業怎麼去選擇一體化的 AI 資料平台?

賈揚清:我覺得企業今天其實在一個迅速變化的過程當中,最重要的一點其實就是好用和快捷。是以說在選擇資料平台還是 AI 的平台的時候,能否迅速地能夠上手,能否迅速能夠讓自己的團隊對接用起來然後去嘗試業務效果,是今天更加重要的一個點。

張伯翰:我從一個創業者的角度來說一下,我覺得這個完全取決于公司的體量。資源有限的時候,你一定得關注最核心的業務。這也是側面反映了揚清說的一點就是好用。

關濤:其實前面聊得很充分,我給幾個具體的建議:

第一,建議用雲。雲其實是一個非常靈活的基礎設施,可以讓你今天買一個資訊流,明天就不用它了。這種靈活性其實會使得企業的架構疊代變得特别簡單。是以第一個建議是要用雲,最好其實是多雲的,有分層解耦的這樣一個設計。

第二,湖倉架構現在應該是個必選項。

第三,關注企業的體量。中小企業選擇一個更簡單、更容易上手的平台其實更重要。Infra 建設目标是為了業務服務,最重要的是你的業務,你關注在你的業務上選一個你最合用的平台就好。

InfoQ:咱們今天的圓桌基本上到這裡就到最終結束的時間了,聽我們同僚說在 7 月 20 号雲器科技其實是有一個新産品的釋出會的,關濤老師要不要提前給我們劇透一下?

關濤:謝謝主持人,最後打一個小廣告。雲器科技是成立了一年半的資料平台服務的提供商,我們的主打的技術口号是多雲和一體化,希望給使用者提供全托管的企業級的極緻簡單的資料平台,我們能同時地支援資料和 AI 的負載。

我們在 7 月 20 号會舉辦首次産品釋出會,主題是 “Single Engine· All Data”,如果大家希望找到我們的話,可以搜尋雲器科技就能找到我們的網站和公衆号。7 月 20 号,歡迎大家來聽我們的釋出會,謝謝!

繼續閱讀