作者:老魚筆記

題圖:DTCC 2020大會專訪合影(左:老魚 右:李飛飛)
點選
對話李飛飛視訊采訪 觀看采訪視訊對話李飛飛,不僅僅是一次簡單的采訪,對老魚來說,也是一種收獲,因為,在資料庫領域李飛飛擁有敏銳的觸角,對資料庫發展趨勢有着獨到的見解和洞察。
在2020年12月結束的DTCC2020,“百庫争鳴”或許是參會者最大的感觸。據不完全統計,目前有名有姓的國産資料庫産品多達200種。
百花齊放,百家争鳴,這正是使用者所需要的。資料庫被國家列為“卡脖子”的35項關鍵技術之一。隻有對資料庫基礎研究越重視,參與的企業越多,關注的人越多,才有可能誕生更好的資料庫軟體。
下一個10年,資料庫發展趨勢是什麼?使用者需要什麼樣的資料庫?這可能是很多從業者都想知道的問題,而這些問題,在DTCC2020大會上就有答案。
大會第一天,阿裡巴巴集團副總裁,阿裡雲智能資料庫産品事業部負責人李飛飛就分享了他對資料庫領域的觀察,并指出了下一代企業級資料庫的6個關鍵技術方向。
衆所周知,Gartner最新公布的2020 年度全球雲資料庫魔力象限評估結果,國内有3家廠商進入,其中阿裡雲更是挺進了第一陣營——上司者(LEADERS)象限。這意味着在雲資料庫這條賽道上,中國資料庫并沒有落後于人,并且真正走進世界一流。
很多人或許沒留意到,今年Gartner将OPDBMS(Operational Database Management Systems)和DMSA(Data Management Solutions for Analytics)兩個本是分開領域合二為一,成為CDBMS(Cloud Database Management Systems)。
為什麼Gartner要這樣做?因為Gartner認為“There is Only One Cloud Database DBMS Market”。這不僅意味着CDBMS魔力象限競争更為激烈,含金量更高,也意味着一種趨勢,資料庫和資料倉庫是可以融合的。
是以,阿裡雲對下一代企業級資料庫關鍵技術的判斷還是極具參考價值的。
但對于6種關鍵技術,外界其實還存在一些不同的聲音。比如,有一種聲音認為,HTAP隻是一種場景需求,并非一種趨勢。分布式是未來嗎?軟硬體一體化是不是又回到了被鎖定的老路?
為此,老魚在會後特意專訪李飛飛,就這些問題展開探讨。
以下為本次專訪對話内容精選:
老魚:在您看來,過去的10年,中國資料庫技術發展呈現怎樣的趨勢?下一個10年會朝怎樣的方向發展?
李飛飛:過去十年,資料庫領域最大的趨勢,我覺得是從傳統資料庫架構向雲原生架構演進的趨勢。
雲廠商的崛起,是過去十年非常典型的特征。沒有人會想到,突然有一天,亞馬遜也開始做資料庫了,并悄無聲息的就已達到了全球資料庫領先位置。我認為,這跟雲計算新賽道帶來的機遇是密不可分的。
雲計算帶來的雲原生技術體系催生了雲原生資料庫和雲原生資料倉庫。像AWS Aurora,AWS Redshift, Snowflake, 阿裡雲PolarDB、AnalyticDB(ADB)。我認為,都是新賽道帶來的全新發展機遇,這是一個非常典型且有着時代代表性的趨勢,向雲原生演進。
另外一個大趨勢,是分布式技術的深度發展。過去十年,分布式技術從一個比較初級的形态發展到今天,有了今天的分布式資料庫和分布式資料倉庫。
接下來的十年,有哪些趨勢?
第一、雲原生和分布式會發生深度融合,架構上無縫融合,提供更好的彈性、高可用能力。
第二、智能化技術深度融合,在資料庫中,如何用AI和相關技術,去做到智能化的運維管控,比如索引推薦,MySQL治理、異常檢測等。
第三、資料庫大資料一體化,包括HTAP以及離線上一體化,在過去的十幾年裡,資料庫領域和大資料領域是分開的,一個做離線,一個做線上,相安無事。但從應用角度或客戶視角看,越來越多的客戶和應用需要最好是一套系統來解決資料從生産、處理、存儲、消費全鍊路的過程,客戶越來越希望減少資料移動和存儲成本,避免天天做資料同步。如果能夠實作離線上一體化或能夠實作HTAP事務分析一體化或離線計算線上查詢一體化,那這些問題都可以迎刃而解。這也是我認為,下個十年非常關鍵的趨勢。這也是為什麼Gartner将OPDBMS(Operational Database Management Systems)和DMSA(Data Management Solutions for Analytics)兩個本是分開領域合二為一背後的核心邏輯。
第四、多模,除了結構化資料,怎麼去處理文本、圖檔等非結構化和半結構化資料?用資料庫方法去融合處理這些資料。
第五、軟硬體一體化,一定要關注硬體發展,比如:NVM、高速網絡等新硬體對資料庫系統設計帶來的沖擊。
第六、安全可信,這是個永恒的話題。不是最新趨勢,但會不斷演進。如何結合區塊鍊技術在資料庫系統裡提供不可篡改性,如何将加密技術做到資料庫裡對資料進行全程加密保護。
老魚:關于HTAP還是頗有些争議。有觀點認為,HTAP隻是一種細分使用場景,還談不上不是未來資料庫的趨勢,并且不建議把OLTP和OLAP業務完全混合,認為在典型的OLTP處理場景就使用面向OLTP設計的資料庫,否則,既達不到OLAP的擴充性,又無法滿足OLTP的實時、高性能等要求。您怎麼看?
李飛飛:中國有句古話,魚和熊掌不可兼得。如果,今天有人告訴使用者說“我今天做了個HTAP資料庫可以替換傳統的OLTP資料庫,也可以替換傳統的OLAP資料倉庫,傳統的OLTP、OLAP系統都沒有用了”,那是不可能的。
如果使用者就是線上交易場景、高并發、讀寫沖突非常高,這種情況下還要做OLAP,做多表聚合查詢,是非常複雜的。此種情況下,和高并發事務放在一起,一定會有挑戰。
那為什麼還要講HTAP,我認為并不是要徹底取代傳統OLTP或徹底取代傳統OLAP資料庫,HTAP有自己的市場。一些線上事務、線上交易的場景下,如果做一些不太複雜的分析,或者做複雜分析但隔離級别要求沒那麼高,對實時性要求也不那麼高,在這種場景下,能不能做到既做OLTP又做OLAP?那是有可能的。
比如,在我們事務處理裡,都做三副本,三副本裡可以做行列轉換,兩個副本可以是行存,第三個副本是列存,去讀列存副本,并保證高隔離機制高實時可見要求,在這種場景下是沒問題的。但如果做非常複雜,時效性要求非常高的分析計算,還是要專門的OLAP系統。
另外,将離線和線上一體化,既能做線上互動式分析也能做離線ETL是剛需。這個過程中,既然要做實時增、删、改、查又要做互動式分析和複雜離線計算(但是前提是在一定的隔離級别以下,比如RC),一定會産生HTAP場景,但這個HTAP和理想中的HTAP既能支援高隔離級别、高并發還能做複雜分析是兩個概念。
我覺得,未來的場景一定是有複雜分析計算場景、資料庫大資料一體化場景,不管從那種角度, OLAP支援一定級别的OLTP, OLTP做得非常好還能兼顧一定的OLAP,這種場景是存在的。
老魚:這幾年,分布式資料庫非常火,很多企業都在試水,有成功的,也有失敗的,有種說法,資料量不上一定規模,沒有超高峰值,沒有高并發的場景就沒必要用分布式資料庫,因為,很可能不能獲得什麼明顯優勢。您怎麼看?
李飛飛:在今天的演講中,我旗幟鮮明的提到,不能為了分布式而分布式。今天分布式很火,有衆多原因。在美國市場,分布式OLTP資料庫商業化成功的案例并不多。以Oracle為例,并沒有将分布式作為最重要的主攻方向。
這其中包括美國分布式資料庫鼻祖Google Spanner以及出來創業的CockRoachDB,商業化規模也有待進一步提升。分布式解決的核心問題是水準拓展問題,但有前提條件,你的業務邏輯和資料分布方法是基本完美比對的,這樣可以做到完美的并行分布式處理,這沒問題。但理想很美好,現實很骨幹,很多業務場景沒辦法做到完美,即使能做到,業務邏輯随着時間會變化,資料分布就可能會發生變化。
還有一種可能,一份資料有多個不同的業務,就像電商場景,既有買家又有賣家,你這資料到底是按買家ID來做,還是按賣家ID來做。不同業務場景需求不一樣,無論是按哪個邏輯去做分庫,最終會導緻跨庫分布式事務處理和分布式查詢。在今天的場景下,如果要保證進階别的ACID,高并發場景下如果業務邏輯和資料分布不一緻,一定會帶來大的讀寫沖突和事務處理成本,這是分布式資料庫無法完美解決的問題。
我們不能為分布式而分布式,而是要看業務場景,什麼樣的業務場景需要分布式改造?比如業務邏輯相對成熟固定,資料分布也比較穩定,不大可能發生突然的資料分布變化,這種場景下做一個分布式設計,那沒問題,還可以提供完美水準拓展能力。如果不是這種場景,或者并非超高并發,大部分業務系統和應用其實并不需要分布式改造。
傳統單機系統也有非常明顯“短闆”,用雲原生能力對資源進行池化,實作資源解耦,可以對應用做透明集中式部署,能完美解決了這個場景。
再往後怎麼辦,将分布式能力和雲原生能力結合起來,将兩者的優勢結合起來。我覺得這才是下一代系統應該去做的一些突破。
老魚:您剛才提到的趨勢裡,有軟硬一體,以前我們經常吐槽友商一款産品軟硬一體帶來鎖定。現在又回到了軟硬一體的路上,這到底是進步還是倒退?
李飛飛:軟硬一體,不能了解為軟硬一體綁定部署,如果是軟硬一體綁定部署就回到了以前那條老路上。雖然以前的産品有很多設計思想值得我們借鑒,實際上,有些産品先于雲廠商意識到資源池化、資源解偶的重要性,并早于雲廠商做了這些工作,但很可惜,是緊耦合的方式去做的,是以,市場的反應沒有那麼好。
今天我講軟硬一體,并不是要去做這種軟硬體緊耦合在一起的部署,而是說,要去結合硬體的特點來設計和優化資料庫系統。尤其是能規模化部署的硬體,客戶并不需要為軟硬體一體化設計,因為這種硬體已經是通用硬體,這個非常關鍵。
軟硬體一體化優化,是每家資料庫廠商都必須要做的,因為系統本質是安全、高效的使用有限的硬體資源,必須結合硬體的特點來優化和設計系統。但問題是,不能針對特定、特殊硬體去做緊耦合,這樣倒逼使用者去改造硬體,這個成本太大。但是對普适性硬體如果視而不見,不針對硬體特點去發展會落伍。
總的來說,我想表達的軟硬體一體化的邏輯,是針對具備普适性、規模化鋪開的硬體,根據硬體不斷發展的特性,快速敏銳捕捉新特性,在資料庫系統設計裡把硬體特性發揮出來。
老魚:今年阿裡雲首次進入Gartner全球上司力象限,您怎麼看待這次入選?阿裡雲資料庫未來将如何去保持跟擴大自己的上司優勢?
李飛飛:阿裡雲隻是中國資料庫的一個代表。今年不僅阿裡雲進入全球上司者象限,我們看到,有2家友商也首次進入了魔力象限,我覺得,這是曆史性突破。
阿裡雲進入全球上司者象限,代表着中國資料庫行業整體水準已經達到世界領先行列。進入第一陣營了,這是非常值得驕傲和自豪的,也給我們後續的發展奠定了非常好的基礎。
尤其是今年Gartner将大資料管理分析和傳統事務資料庫合二為一,在這個背景下取得這個成績,非常難能可貴。
我們看到各大雲廠商以及Oracle、IBM等老牌和新貴Databricks、Snowflakes都在裡面。後續競争,我相信每一年會越來越激烈,怎麼去保持?
第一,從市場中來、回到市場中去,貼着客戶需求去發展,而不是自嗨。
比如;今天我們看到,阿裡雲在公共雲市場佔有率非常大,但也看到混合雲市場機會非常大,針對混合雲市場,如何去打造我們的産品和技術?這是新的挑戰。這種挑戰甚至可以說,美國雲廠商遇到的挑戰都沒有我們多。
中國網際網路為什麼在某種程度上發展的比美國還要好?因為市場驅動、客戶驅動、應用驅動,中國有這麼多人口,有密集城市,是以中國的網際網路應用在某些程度發展的反而比美國好,因為它有驅動應用發展和創新的條件。在混合雲市場,中國也具備這樣的條件。
美國IT數字化程度非常高,進入雲計算之前,其數字化程度非常高。是以美國的企業對擁抱公有雲相對中國市場是非常自然而然的事情。但中國市場不一樣,中國市場有中國市場的特點。
傳統政企對公共雲的擁抱肯定沒有美國市場度高。是以,在中國混合雲市場在相當長一段時間裡會是一個核心賽道,這個市場上怎麼發力?技術産品怎麼設計?從市場需求出發,結合市場特點,做出一些差異化有特色的産品非常關鍵,這是第一點。
第二點,既然是全球上司者,那麼,在全球市場上的表現就非常重要。阿裡雲不僅做中國市場,也要走出國門。在今天的環境下,在歐美市場會有一些挑戰,但在東南亞市場,在歐美市場之外還有廣闊的市場空間等着我們去增長。
這些市場,阿裡雲要直面國外雲廠商的競争,在與它們的PK中去赢得客戶。今年,阿裡雲能進入全球上司者象限很關鍵的原因是,阿裡雲有很多海外客戶,很多是從國外雲廠商遷移過來,這對Gartner而言,是非常重要的信号,說明阿裡雲做得更好,客戶用腳來投票,這是非常有說服力的。
老魚:阿裡雲資料庫産品線,今年相比去年有什麼變化?
李飛飛:我們會進一步聚焦,OLTP核心産品是PolarDB及分布式版PolarDB-X。OLAP有兩個核心産品,分别是雲原生資料倉庫AnalyticDB和雲原生資料湖分析DLA。NoSQL領域也是兩個核心産品,雲原生多模資料庫Lindorm和雲原生記憶體資料庫Tair。
還有托管産品RDS和NoSQL、和工具類産品。對托管産品,阿裡雲更多是在管控平台這一層投入,結合雲原生和智能化的技術把托管的優勢發揮出來。比如自動化執行個體管理、高可用等。
阿裡雲的核心思路還是聚焦在主賽道上,在核心自研産品上加大投入,托管産品和生态夥伴達成很好的合作關系,發揮托管平台優勢。比如MongoDB,以前我們還在MongoDB上投入研發,現在兵力都收縮回來,我們跟MongoDB簽了個協定,用它的最新版,不是挺好的嗎?從資料庫核心産品再到運維服務再到應用開發ISV,借助和發展生态的力量是我們的核心戰略。
文章來源:老魚筆記