天天看點

OceanBase十四年:艱難起步、根自研和一體化思路

作者:科技行者
作者|金旺

2024年對于OceanBase來說是尤為關鍵的一年。

一方面,這一年,螞蟻集團官宣OceanBase正式獨立營運;

更重要的是,不少頭部企業核心業務開始正式轉向OceanBase分布式資料庫,一些企業甚至明确提出了要“All in OceanBase”。

OceanBase CEO楊冰稱,“分布式資料庫如今已經開始成為現代資料庫的标準架構,與此同時,一體化資料庫也逐漸成熟、走向商用。”

2024年,在這兩大主流趨勢推動下,OceanBase有了更大的作戰空間。

當然,他們也有了新的思考和目标。

資料庫的艱難十年

2014年11月,在AWS re:Invent大會上,亞馬遜官宣釋出了Amazon Aurora,Aurora的釋出,拉開了自研資料庫的帷幕。

當時中國資料庫商用市場仍處于初期階段,雖然Oracle在1989年就已經進入中國市場,并帶動了鐵路、金融、營運商等大型國央企的資訊化更新,但由于高昂的售價和運維費用,每年這些企業都需要巨額費用支出,自研資料庫在這時的中國呼之欲出。

2010年,44歲的陽振坤加入阿裡,帶隊開啟了阿裡的資料庫自研之路,更準确的說法是,陽振坤這一年在阿裡内部開啟了分布式資料庫OceanBase的自研之路。

OceanBase十四年:艱難起步、根自研和一體化思路

這一年,關系型資料庫仍是主流,但行業中已經有了NoSQL有可能取代關系型資料庫的熱議,而分布式資料庫還隻是一個不被看好的小衆路線。

楊冰回憶稱,“十幾年前,由于分布式資料庫的技術還很不成熟,就連如何用中間件做分庫、分表都還是一件很複雜的事,因而算是一條很小衆的技術路線。”

不過,這還不是阿裡自研資料庫之初遇到最大的難題,他們當時遇到最大的難題其實是人才短缺。

當時雖然一些IT技術人員已經開始使用資料庫,但由于這項技術複雜度高,在國内起步較晚,真要做資料庫自研,很難招到優秀的資料庫人才。

這也是OceanBase後來每年召開開發者大會,在開發者社群上不斷投入,甚至直接與高校合作,聯合高校培養人才的原因之一。

OceanBase十四年:艱難起步、根自研和一體化思路

當然,這些都是後話,在阿裡決定自研資料庫時,擺在他們面前的第一個問題是——選擇開源路線,還是純自研路線?

選擇開源路線的話,相當于站在了巨人的肩膀上,不用經曆從0到1的冷闆凳和痛苦閉關,但問題在于,當時國内企業在實際應用場景中,遇到的很多問題通過開源資料庫已經無法從根本上得到解決。

例如,随着企業對于海量資料、高速寫入的需求越來越大,LSM-Tree資料結構剛好适合這樣的需求。

然而,在傳統的資料庫架構中,基于LSM-Tree建構索引、進行資料查詢這樣最基本的需求并不友好。

OceanBase十四年:艱難起步、根自研和一體化思路

選擇純自研路線,可以從底層架構上打破傳統規則,可以設計一個全新的、更适合應用需求的架構,這樣自然也更容易解決資料庫行業當時看似沖突的業務需求。

但這樣從無到有根技術的突破,是一個痛苦而又煎熬的過程。

當時的OceanBase團隊在二者之間,最終還是選擇了純自研這條“不歸路”。

就是這樣一條純自研、當時看起來又很小衆的技術路線,OceanBase堅持了10年。

楊冰說,“目前,OceanBase已經做到了100%根自研。”

OceanBase十四年:艱難起步、根自研和一體化思路

“從第一行代碼寫起,我們知道每一行代碼是如何實作的,網絡存儲CPU是如何排程的,是以我們結合各個專有雲、公有雲場景做了大量的技術嘗試和自研創新。”

2014年,原生分布式資料庫OceanBase取代了原本的集中式資料庫,支撐起了支付寶核心交易系統,并開始承擔“雙十一”10%的交易流量;

2016年,OceanBase 1.0版本正式釋出,這一年“雙十一”期間支付寶所有支付資料鍊和交易資料鍊全部運作在了OceanBase上,在阿裡内部率先實作了核心業務替代;

2021年,OceanBase釋出HTAP混合引擎,并正式對外開源,客戶數量超過400家,開始真正成為通用型企業級分布式資料庫。

“All in OceanBase”

當楊冰在2024年站到OceanBase資料庫城市行|粵港澳的講台上時,分布式資料庫已經不再是十年前那個小衆的技術路線,真正成了資料庫領域一條主流技術路線。

來自IDC的統計資料顯示,到2022年,中國分布式事務資料庫在關系型資料庫中的占比已經提升到了16.2%。

此外,據IDC預測,到2027年,中國分布式事務資料庫總體市場年複合增長率将達到28.5%,其中在公有雲上增長率将達到32.8%。

這樣的增長速度,已經超過了公有雲本身的增速。

OceanBase十四年:艱難起步、根自研和一體化思路

而楊冰在和一些機構分析師交流中也獲悉,以現有的增速來看,到2025年,國内使用分布式資料庫的企業和場景占比預計将會突破50%。

今天,用不用分布式資料庫已經不再是一個問題,作為國内最具代表性的分布式資料庫,OceanBase如今也已經有了超千家客戶,諸如中國移動、交通銀行、理想汽車等一些頭部企業經過測試和準備,核心業務正在轉向OceanBase分布式資料庫。

交通銀行貸記卡系統的分布式改造,是其向全面分布式轉型的關鍵一步,其中就包括在底層使用OceanBase。

通過使用OceanBase,大大提升交通銀行資料處理效率和系統可用性,金融TPS(每秒處理事務數)提升6倍、跑批效率提升超過7倍。

據楊冰在大會上公布的資料顯示,如今的OceanBase已經服務了中國70%頭部銀行、75%頭部證券、45%頭部基金,以及20%省移動營運商和25%省人社部門。

在這個過程中,分布式資料庫逐漸成為現代資料庫的标準配置,越來越多企業開始選擇分布式資料庫,開始“All in OceanBase”。

“一體化”新趨勢

2023年11月16日,在OceanBase2023年度釋出會上,OceanBase 4.2.1 LTS正式釋出。

OceanBase 4.2.1 LTS獨特之處在于,這是OceanBase首個長期支援的一體化資料庫版本。

OceanBase十四年:艱難起步、根自研和一體化思路

什麼是分布式一體化資料庫?

在傳統概念中,與分布式架構相對應的是集中式架構,然而,企業往往是線性發展路線,在不同階段,對兩類資料庫可能存在着不同的需求,這就意味着,對于資料庫供應商而言,難以從工程和産品設計上将兩類産品完全切分開來。

“分布式和集中式本身不是對立的,”這是楊冰和OceanBase團隊這幾年做資料庫産品研發和工程實踐的切身體會。

這也就有了OceanBase将分布式和單機資料庫融合在一起的設計思路來源。

vivo是受益于這類資料庫産品的企業之一,vivo體系與流程部IT部DBA組總監鄢楠指出,“vivo現在内部業務系統已經從十幾個資料庫執行個體發展到了數千個,其中既有使用商業資料庫的業務系統,也有使用開源資料庫的業務系統,基于降本增效考慮,在2023年開始基于OceanBase自建資料庫。”

OceanBase十四年:艱難起步、根自研和一體化思路

在這一過程中,vivo使用的正是OceanBase 4.2.1版本,也就是OceanBase的單機分布式一體化産品。

基于這一版本,在半年時間裡,OceanBase已經在vivo内部15個生産業務系統上線應用,在vivo原有的MySQL分庫分表架構替換為OceanBase後,總資源占用節省了80%,極大地降低了vivo團隊的運維成本。

一體化是楊冰笃定的資料庫技術趨勢,也是貫穿OceanBase過往十四年研發曆路中始終如一的方向。

在過往十四年裡,OceanBase團隊已經基于自家資料庫實作了工程一體化、TP/AP一體化、雲上雲下一體化、單機分布式一體化,這四個“一體化”打造出的資料庫,也是楊冰認為接下來新一代資料庫該有的樣子。

就在前不久,螞蟻集團官宣,旗下螞蟻國際、OceanBase和螞蟻數科已成立董事會,開始獨立面向市場。

與此同時,OceanBase在3月20日的大會上官宣更新2022年釋出的珊瑚計劃,提高專有雲夥伴簽約占比至70%,夥伴獨立傳遞占比提高到30%。

OceanBase分布式資料庫規模化商用落地節奏由此也得以再次加快。

作為自2020年開始獨立商業化的技術團隊,2024年,當OceanBase正式獨立營運、加快進入市場時,一個資料庫行業新周期也悄然拉開帷幕。