天天看點

專訪李飛飛 :從清華附中高材生到阿裡飛刀,一口井鑽出「雲原生」

如果要用一個關鍵詞來定義中國當下的消費時代,“雙11”是再貼切不過了。

從2009年11月起,它隻花了十年的時間,就從一個隻有27家商戶參與的打折日,變成了一個全民狂歡的消費節,2019年已經有超過18萬家品牌參加,累計成交額更是高達2684億元。

每年的雙11,都是網際網路的流量洪峰。

專訪李飛飛 :從清華附中高材生到阿裡飛刀,一口井鑽出「雲原生」

面對逐年攀升的成交額資料,到底是什麼作為支撐呢?

阿裡巴巴集團副總裁、阿裡雲智能事業群資料庫産品事業部總裁、達摩院資料庫與存儲實驗室負責人李飛飛在新智元專訪中透露,去年雙11交易峰值達到了每秒55萬筆,而每筆交易又能拆分成很多個事務,總的下來每秒會有幾百萬的transaction事務在0:00:01那一刻發生,交易量會暴漲133倍。比如說之前一秒有一個,現在就是一秒有133個。

短時間内如此高的增長,對後端的計算和存儲系統的挑戰巨大。系統的彈性、可擴充性及高可用性要非常好,不然難以支撐瞬間的交易暴漲。

這是對資料科學的極大挑戰,也是每個有抱負的「資料科學家」最好的舞台,李飛飛為這個舞台準備了20年。

從清華附中起飛:李飛飛如何走上資料科學之路?

李飛飛從小喜歡深挖鑽研,參加了很多數學和實體競賽。

在清華附中的國家教委理科實驗班,沒有了聯考的壓力,李飛飛便一頭紮進了競賽裡。

16歲是個分水嶺。那一年,他初三畢業進入了國家教委理科實驗班,确定了後續保送進清華的道路。

大學的畢業設計,讓他第一次接觸到了資料科學。那個年代,大資料還沒有興起,但在當時的李飛飛看來,這個工作具有前瞻性的意義。

專訪李飛飛 :從清華附中高材生到阿裡飛刀,一口井鑽出「雲原生」

即使來到了2017年,「資料科學家」這個崗位也依然很「感性」。

因為當時,資料科學還不是一門大熱學科,「資料科學家」的概念還停留在表層,很少有人能透過枯燥和乏味參悟到其中的魅力。

從2001年初到2002年上半年,在這一年多的時間裡,李飛飛都沉浸在自己的畢設項目裡,每天都和外文網站上的海量資料打交道。

通過對BBC、CNN等網站資訊的拆解并分析Hyperlink資源,成功将網站的結構拓撲出來,并描繪出一個完整的背景,還初步實作了對網站資訊的自動化了解。

「現在回頭來,我們當時這個項目看其實是非常超前的,以當時的技術确實也也不大可能lead to somewhere」,在談到大學畢設的項目時,李飛飛如是說。

雖然當時隻用了一些分詞、詞頻統計等簡單的方法,但是已經有了現代NLP技術的影子。真正有前瞻思考的人總是走在時代的前面。

「01、02年左右,還沒有大資料的概念,但本質上,我認為大資料和資料庫是同源同本的,也就是對資料的管理和處理。」

「這個項目對我的鍛煉很大,當時的那個人工智能,包括深度神經網絡跟NLP的技術還沒有發展起來,其實當時已經有神經網絡,我大學時期上過這門課,印象還很深,覺得這個效果很好,但是當時因為叢集的規模、算力的限制,也沒有深度的網絡。」

管中窺豹,可見一斑。

通過這個項目,李飛飛很早地認識到了資料驅動的力量和永無止境的探索空間。

「在那個年代,很多的上層應用分析,很多時候是rule-based,也就是規則驅動,定義規則,然後根據這個來搭建系統,但當時我們做那個項目就已經感受到資料驅動的力量。

專訪李飛飛 :從清華附中高材生到阿裡飛刀,一口井鑽出「雲原生」

「資料從生産、處理到存儲、消費,這個全鍊路的了解、挖掘和管理,是永遠沒有止境的,因為資料量在不斷地變大。資料類型在不斷地這個複雜化。基于這些資料建構的上層應用也在多樣性,也在多樣化」

資料的挖掘和管理如同一個滾滾向前的車輪,随着時代和技術的演進不斷向前,激發了李飛飛在這個領域探索不斷探索的熱情。

在這個具有超前意識項目的熏陶下,李飛飛毅然決然地走上了資料科學的道路,轉而到美國波士頓大學攻讀資料庫系統和大資料。之後又先後在佛羅裡達和猶他大學計算機系任教,從助理教授到副教授,一路做到正教授,這一幹就是10年。

這所低調的名校在圖形處理方面和系統方向頗有名氣,大名鼎鼎的著名軟體公司Adobe聯合創始人John Warnock,就是在猶他大學完成了大學和博士學位。

連著名動畫公司皮克斯也是猶他大學教授和博士生共同創立,還出過三個圖形圖像方向的圖靈獎獲得者。

網際網路Internet的前身—ARPANET 的誕生通常被認為是網絡傳播的“創世紀”,由西海岸的4個節點構成:加州大學洛杉矶分校( UCLA)、斯坦福研究院(SRI)、加州大學聖塔芭芭拉分校(UCSB)和猶他大學(UTAH),其中之一就在猶他大學計算機系。

系統方向的頂級會議OSDI的最佳論文獎Jay Lepreau Award也是以猶他大學計算機系教授Jay Lepreau命名的。

阿裡雲總裁一席話讓他毅然加入阿裡:技術創造新商業

談到在資料科學道路上的引路人,李飛飛講到了著名的資料庫領域的圖靈獎獲得者Michael Stonebraker。

專訪李飛飛 :從清華附中高材生到阿裡飛刀,一口井鑽出「雲原生」

提到Stonebraker普通讀者可能不熟悉,但是在領域内,他所搭建的主流開源資料庫PostgreSQL幾乎是無人不知無人不曉。

Stonebraker不僅僅research做得好,也能做到真正的system driven research,做教授期間又開了很多家在行業内影響深遠的資料庫公司。

在資料庫領域,他是學術科研能力和技術産品化能力結合的典範。在飛刀的印象裡,Stonebraker堪稱真正的旗幟性人物。

在高校職教的八九年,讓李飛飛更深入地認識到學校和工業界的不同。學校是一個相對來講更加自由的氛圍,造就的人也更加純粹,科研就是把複雜的問題簡單化,去找尋最本質的問題,而公司有更強的導向性,以市場、客戶需求為導向。公司的短期目标更加明确。

「在公司裡你要思考的是,如何将技術變成産品,如何将産品變成商品。而在學校裡,你更關注的是在技術層面去創新突破,可能還沒有到産品,或者遠遠沒有到商品,這兩者的能力象限要求是完全不同的。」李飛飛在采訪中提到。

在高校做科研的歲月裡,李飛飛獲獎無數,獲IEEE ICDE 2014 10年最有影響力論文獎、ACM SIGMOD 2016最佳論文獎、ACM SIGMOD 2015最佳系統展示獎、IEEE ICDE 2004最佳論文獎等,但是走出高校的象牙塔,工程化産品化的吸引力也在感召着他。

回國之前,李飛飛也多次接觸過谷歌Facebook等矽谷大廠,但最終選擇回國加入阿裡,還要源于時任阿裡巴巴CTO、現任阿裡雲總裁張建鋒的一番話。

面試時, 張建鋒的一句話深深打動了他,「技術創造新商業」,讓飛刀深入思考起技術的本質。

專訪李飛飛 :從清華附中高材生到阿裡飛刀,一口井鑽出「雲原生」

「最後我想明白,我們從技術角度思考的是性能提升多少,成本降低多少,但最終本質上驅動這個社會發展演進的是商業的力量。」

從這個意義上講,阿裡雲的達摩院和資料庫事業部正是科研和商業的有機結合,鑽研技術的同時還可以參與産品的商業化過程,正中靶心。

此外,阿裡内部包括電商、物流、新零售、金融等在内的多樣化業務和海量資料帶來的豐富挑戰也給了飛刀小試牛刀的用武之地。

「從一個曆史長河的角度來看,能夠創造商業價值的技術才是真正有生命力的,我真的是這樣覺得。」飛刀總結說。

從清華附中起飛:「一口井」鑽出雲原生資料庫

現實中也有很多類似雙十一的場景,都需要一個可以彈性擴容的資料庫來支撐。

就在2018年,阿裡啟動了一個「全面上雲」的戰役,将雙11核心系統的計算、存儲、網絡、資料庫全都搬到了阿裡雲上。

專訪李飛飛 :從清華附中高材生到阿裡飛刀,一口井鑽出「雲原生」

而在今年剛剛結束的雲栖大會上,阿裡巴巴宣布成立雲原生技術委員會,同時推出了雲原關系型資料庫PolarDB、雲原生分布式資料庫PolarDB-X、雲原生資料倉庫AnalyticDB(ADB)、雲原生資料湖分析DLA、雲原生多模資料庫Lindorm等一系列自研的雲原生資料庫産品。

專訪李飛飛 :從清華附中高材生到阿裡飛刀,一口井鑽出「雲原生」

這些産品不是孤零零的,而是形成了一個完整的體系。

此舉也标志着阿裡雲資料庫全面進入了雲原生+分布式時代。阿裡技術委員會主席王堅說,這将讓阿裡雲與客戶「坐在同一架飛機上」。

傳統的資料庫可以分類為OLTP、OLAP、NoSQL,它們面臨的最大挑戰就是要保證讀寫并發量很高的時候的一緻性,避免讀寫錯誤的發生,以及海量資料的低成本存儲和高效的計算與分析。

專訪李飛飛 :從清華附中高材生到阿裡飛刀,一口井鑽出「雲原生」

雲原生(Cloud Native)資料庫在這三個領域都有所應用。

要了解雲原生,首先要了解的就是「雲」。雲不僅僅是把資源放到雲端那麼簡單。傳統的計算機架構中,資源都是「緊耦合」在一起的。

李飛飛舉了一個生動的例子——水桶和井。井裡的水需要打出來拿到廚房用,如果把廚房比作CPU,我們可以說水井和廚房是緊耦合的。

當用水多時,除了加大井的深度和寬度,還可以建構「分布式」的水井,通過某種裝置把各家的水井連接配接起來。

但通過裝置來排程每家每戶的水井,這種「分布式」的過程也十分複雜,需要一個高效的排程系統。

了解了分布式,再來看雲。

李飛飛表示,「雲」的第一個本質就是「用虛拟化的技術将資源池化」。

用水井的例子解釋「雲」就是,表面上還是100口獨立的水井,但是水井的底部已經連在一起,形成了一個隐形的池塘。

「雲」的第二個本質是「資源解耦」,存儲和計算要解耦合,再将存儲和計算分别池化。這樣的好處就是擴容可以變得非常靈活,如CPU的核心數和存儲可以自由擴容。

專訪李飛飛 :從清華附中高材生到阿裡飛刀,一口井鑽出「雲原生」

雲原生資料庫就是通過資源池化、存儲和計算分離、資源解耦,進而具備更高的彈性和高可用性以及分布式的能力,來滿足業務對按需按量使用和按需按量付費的需求。

專訪李飛飛 :從清華附中高材生到阿裡飛刀,一口井鑽出「雲原生」

雲原生關系型資料庫PolarDB、雲原生分布式資料庫PolarDB-X、雲原生資料倉庫AnalyticDB(ADB)表面上看起來和傳統資料庫沒有很大的差別,都具有存儲引擎、優化引擎、界面引擎等,但是底層對資源的使用和排程卻發生了翻天覆地的變化。雖然底層發生了變化,但希望對于使用者來說,是一個透明的感受不到的改變。

專訪李飛飛 :從清華附中高材生到阿裡飛刀,一口井鑽出「雲原生」

李飛飛還表示,未來,多模态資料的處理問題和資源的智能排程,是雲原生資料庫要面臨的挑戰之一。

疫情期間,線上教育和遊戲行業都發生了本質的變化,使用雲原生資料庫可以更好的滿足彈性的需求。

不僅如此,雲原生資料庫還可以實作離線上一體化,資料處理與計算分析一體化,大資料與資料庫一體化,幫助使用者實作會資料庫就會大資料,不再需要編寫複雜的Hadoop和Spark程式,隻需要簡單的SQL就可以完成複雜的任務處理,大大減少使用者的開發難度。同時,很多使用者定位的時間問題也被縮短到了7分鐘以内。

最後,李飛飛還表示,阿裡雲的雲原生資料庫堅持自主研發、自主可控,在生态上會100%相容現有的資料庫,使用者不必擔心未來被鎖死在這裡,可以按照需求進行靈活遷移。

雲原生是趨勢,技術創造價值才有意義

對技術的探索,幫助人類不斷進步和提升,那什麼樣的技術才值得我們去追求?

李飛飛認為,要從本質上去思考,這項技術最終會不會變成一個可規模化,持續化産生商業價值的東西。

這個問題聽着好像很空很大,但實際上靜下心來去想,什麼節點需要去做什麼樣的創新突破,就容易實作了,比如說雲原生為什麼是一個趨勢。

因為資源解耦、彈性可擴充這些真的是變成了按需按量,就跟以前為什麼從家家戶戶從水井打水喝水,演進成都用自來水一樣,不喝随時可以停掉。

是以雲原生資料庫來,本質上是解決了資源使用效率和擁有資源成本的問題,這就變成了一個商業的問題。

那技術隻有創造商業價值才是有意義的嗎?

如果從人類文明的曆史來看,很多技術在短期内可以沒有商業價值。

但是,不能等到100年以後才變現,那這個技術就沒有意義了。現在快速變化的環境下,最多三年,必須要把技術演進帶來的商業價值和邏輯講清楚,因為公司需要去不斷地演進不斷地提升營運效率。

做資料庫的這些年,用李飛飛自己的話說,更傾向于從邏輯的角度去思考一些問題。

「比如說我會比較關注這個因果關系,相關性,比如說我看很多東西就會先想他是不是有相關性,有了相關性之後,再想這個是簡單的相關,還是有内在的因果關系。」

未來,一切都将是資料驅動的,尋找資料之間的關聯才能衍生新價值。

文章來源:新智元