天天看點

獨家 | 一擊進榜!達摩院十年“掃地僧”,揭秘阿裡雲資料倉庫逆襲之旅

獨家 | 一擊進榜!達摩院十年“掃地僧”,揭秘阿裡雲資料倉庫逆襲之旅

2011年加入阿裡巴巴,在近10年時間一直從事資料倉庫、資料湖基礎平台研究、研發、産品化相關工作。目前在阿裡雲資料庫事業部主要負責資料倉庫與資料湖相關産品的研發;達摩院資料庫與存儲實驗室研究員。

資料庫這個詞你可能有些陌生,但其實,所有的現代生活背後,都隐藏着資料庫的服務。你的每一次消費、每一次股票交易、每一條微網誌動态,都離不開資料庫。

人類的發展跟資料息息相關,人類最早的時候,是從結繩記事開始;到後來,可以把文字記錄到甲骨文上;再到後來我們開始有了計算機。從人類誕生開始,人類就在不停地記錄資訊,其實那就是資料庫的雛形。

1960年阿波羅登月計劃,美國航空航天局NASA為了記錄整個航天過程中的所有資訊,聯合 IBM 研發出了第一代資料庫——IMS。随後資料庫技術開始進入民用領域并得到廣泛應用。

Q:您當時為什麼選擇加入阿裡?

占超群:應該是在11年左右,那時候認識很多淘寶的朋友,當時整個淘寶其實也發展很快。我記得印象中好像在2011年的時候,淘寶的日獨立UV超過1.2個億,然後那時候我覺得可能淘寶是最有機會去實作一個很重要的技術突破的地方。

Q:在阿裡工作近十年,您有遇到什麼困境嗎?​

占超群:印象中比較深刻的困境是在剛來的第五個月的時候,本來主管要求我是兩個月要上線的。但是我做了五個月還沒上線。那時候産生了第一次理念的沖突。

其實主管給我要求做一個為單個業務服務的資料處理技術,還不能稱之為資料庫系統,他說你把這事情做好就夠了。我當時跟主管講,這個事情不是為單個業務服務的一個子產品,而應該是一個平台型的設計和平台型的系統。我們倆一起聊了很久,最終我覺得還是很幸運的,大家還是達成了一緻,主管覺得這個事情有價值。

是以我當時第一天就按照一個資料庫的形态去倒推今天該怎麼做,考慮到描述語言(SQL)、優化器、存儲引擎、執行引擎,從最開始支援一個到兩個到20個業務,到今天的500多個,集團的分析業務基本都覆寫了。

Q:2019年,阿裡巴巴的AnalyticDB資料庫榮登TPC-DS榜單第一,終于打破了甲骨文和微軟在資料庫領域的霸主地位。您當時怎麼想到要去沖擊TPC榜單?

占超群:18年的10月份,我記得是在一個晚上,我拉了團隊幾個核心的骨幹,我說我們要去沖擊一下 TPC,打磨下我們端到端的技術,按照國際标準進行極緻與嚴格苛刻的端到端驗證。

當時他們都比較反對,他們看了報告覺得好多東西都看不大懂,甚至第一反應不是很了解背後考察什麼?要用什麼技術去解決?這個裡面其實挑戰是很大的,但我說這個事情我們必須去,我說這是我們很重要的一個飛躍點和技術驗證點,這些技術通用化是可以很好地打磨産品,也會對客戶産生很大的價值。

Q:很多人可能會覺得去挑戰一個長期被國外巨頭壟斷的資料庫技術榜單,您是給自己定了一個過高的目标,您中途是否有想過放棄?

占超群:我是很堅定的。但過程真的非常痛苦。我花了大部分時間和大家在項目室或開電話會,一項一項地摳細節,一項一項去做架構的review。​

Q:徒步之旅和沖擊 TPC 有什麼異曲同工之處?

占超群:我以前走過一次徒步,就是去過玄奘之路,讓我一生的印象深刻的事情就是徒步第三天,終點是個風車鎮,從露營的地方你就能看到那個終點,但是你就怎麼走都走不過去。出發的時候還很開心覺得一下子就能看到終點應該很快就能完成,但是走到中午發現,他們說你才走了一半不到,是以那天很多人都放棄了,就走到一半就放棄了;我走到一半的時候,我也感覺特别難受。

我在中途休息了很久,心裡也很想放棄。因為我這麼多年的一個性格,就是再難,隻要定了,我是爬過去也好,還是走過去也好,但是一定要去到終點。是以中途休息了特别長時間,後來還是爬起來接着走,印象中走到天黑才走到終點。

我們走向國際化就這種感覺,你知道對手是誰,他做成咋樣了,但是你就是不知道該怎麼走過去。就是你跑一段發現,這段對手已經五年前走過了。再跑一段,發現對手七年前走過了,就這種感覺,是其實很讓人又興奮又絕望的那種。

最終是在2019年的4月份,我們就正式完成了,并且效果還非常好,拿到了性能和成本效益全球第一。

Q:每一次的産業革命都伴随着基礎設施的更疊,而在資料庫領域,也正發生着這樣一場從舊到新、從傳統到雲端的技術巨變。您是怎樣看待這樣的轉變?

占超群:雲計算其實在重構整個資料庫的體系結構。以前資料庫的結構是什麼樣子呢?磁盤、CPU、記憶體都是單機的,要麼 Scale up 擴充單機資源如記憶體等,要麼 Scale out 擴充實體機數量。但今天雲計算基礎設施變化會出現什麼呢?存儲是可以共享和按需付費的,計算也可以按照實時的請求彈性擴充。它把整個體系結構都變了,雲原生加分布式技術對于資料庫來說是巨大的機遇,這個東西其實是我們在目前,最有機會能超過國外廠商的一個新賽道。

Q:您​總共招聘過多少人?

占超群:我看系統應該超過1500人。無論是俠客行、百年阿裡,上了很多場課。

Q:您選人的标準是什麼?

占超群:實際上就是很多人分不清什麼叫知識,什麼叫經驗,什麼叫能力,什麼叫潛力。比如我看了一本書或一篇Paper,這隻能叫一個知識;然後我做了某件事情,用到這些知識,這叫經驗。能力是什麼呢?就是說,我做了這件事情總結出來的技術和經驗,我在B、C、D、E項目中複制了,這個就叫能力。基于這些能力,然後在面臨一個未知的時候,我也能做得很好,這叫潛力。這是我們要去深入挖掘出來的東西,因為我們面臨很多未知挑戰,需要更多人一起去解決。

Q:您有什麼特别的解壓方式嗎?

占超群:待的時間越長,慢慢會形成一個思維慣性和執行慣性,也會失去剛入職的那種銳氣和勇氣,這是我最怕的一件事情。以前在西溪園區的時候,那個時候比如我在面臨一些壓力或者有很大挑戰和選擇的時候,我都會看一下九号館的雕像,更多時候想想我是不是背了太多包袱了。

獨家 | 一擊進榜!達摩院十年“掃地僧”,揭秘阿裡雲資料倉庫逆襲之旅

其實我跟大家一樣,也是從一個基層的同學成長起來的,過程中一定會碰到很多的委屈,包括老闆不一定了解,包括被業務方否定和批評,包括各種内外部的技術 PK,這個過程中也是經曆了很多内心的糾結彷徨。

很多時候我也想過放棄。但這個過程中,比如我們的技術用到城市大腦讓這個城市更安全,讓城市的治理效率更高;技術用到郵政等讓整個郵政的物流效率更高等。其實背後都是有非常大的技術突破和創新,這些技術在一步步地改變民生,在支援企業數字化,承載很多客戶對我們的信任與托付,讓很多美好的事情發生。這些是能讓我在很多時候,在委屈和彷徨的時候堅持下去最大的動力。