NewSQL資料庫VS分庫分表

前言

最近與同行科技交流，經常被問到分庫分表與分布式資料庫如何選擇，網上也有很多關于中間件+傳統關系資料庫（分庫分表）與NewSQL分布式資料庫的文章，但有些觀點與判斷是我覺得是偏激的，脫離環境去評價方案好壞其實有失公允。

本文通過對兩種模式關鍵特性實作原理對比，希望可以盡可能客觀、中立的闡明各自真實的優缺點以及适用場景。整理類一些相關資料庫知識點，

● NewSQL資料庫先進在哪兒？

● 分布式事務

● HA與異地多活

● Scale橫向擴充與分片機制

● 分布式SQL支援

● 存儲引擎

● 成熟度與生态

● 總結

NewSQL資料庫先進在哪兒？

首先關于“中間件+關系資料庫分庫分表”算不算NewSQL分布式資料庫問題，國外有篇論文pavlo-newsql-sigmodrec，如果根據該文中的分類，Spanner、TiDB、OB算是第一種新架構型，Sharding-Sphere、Mycat、DRDS等中間件方案算是第二種（文中還有第三種雲資料庫，本文暫不詳細介紹）。基于中間件（包括SDK和Proxy兩種形式）+傳統關系資料庫（分庫分表）模式是不是分布式架構？我覺得是的，因為存儲确實也分布式了，也能實作橫向擴充。但是不是"僞"分布式資料庫？從架構先進性來看，這麼說也有一定道理。"僞"主要展現在中間件層與底層DB重複的SQL解析與執行計劃生成、存儲引擎基于B+Tree等，這在分布式資料庫架構中實際上備援低效的。為了避免引起真僞分布式資料庫的口水戰，本文中NewSQL資料庫特指這種新架構NewSQL資料庫。

NewSQL資料庫相比中間件+分庫分表的先進在哪兒？畫一個簡單的架構對比圖：

1.傳統資料庫面向磁盤設計，基于記憶體的存儲管理及并發控制，不如NewSQL資料庫那般高效利用。

2.中間件模式SQL解析、執行計劃優化等在中間件與資料庫中重複工作，效率相比較低；

3.NewSQL資料庫的分布式事務相比于XA進行了優化，性能更高；

4.新架構NewSQL資料庫存儲設計即為基于paxos（或Raft）協定的多副本，相比于傳統資料庫主從模式（半同步轉異步後也存在丢數問題），在實作了真正的高可用、高可靠（RTO<30s，RPO=0）

5.NewSQL資料庫天生支援資料分片，資料的遷移、擴容都是自動化的，大大減輕了DBA的工作，同時對應用透明，無需在SQL指定分庫分表鍵。

這些大多也是NewSQL資料庫産品主要宣傳的點，不過這些看起來很美好的功能是否真的如此？接下來針對以上幾點分别闡述下的我的了解。

分布式事務

這是把雙刃劍

CAP限制

想想更早些出現的NoSQL資料庫為何不支援分布式事務（最新版的mongoDB等也開始支援了），是缺乏理論與實踐支撐嗎？并不是，原因是CAP定理依然是分布式資料庫頭上的頸箍咒，在保證強一緻的同時必然會犧牲可用性A或分區容忍性P。為什麼大部分NoSQL不提供分布式事務？

那麼NewSQL資料庫突破CAP定理限制了嗎？并沒有。NewSQL資料庫的鼻主Google Spanner（目前絕大部分分布式資料庫都是按照Spanner架構設計的）提供了一緻性和大于5個9的可用性，宣稱是一個“實際上是CA”的，其真正的含義是**系統處于 CA 狀态的機率非常高，由于網絡分區導緻的服務停用的機率非常小，**究其真正原因是其打造私有全球網保證了不會出現網絡中斷引發的網絡分區，另外就是其高效的運維隊伍,這也是cloud spanner的賣點。詳細可見CAP提出者Eric Brewer寫的《Spanner, TrueTime 和CAP理論》。

完備性：

兩階段送出協定是否嚴格支援ACID，各種異常場景是不是都可以覆寫？2PC在commit階段發送異常，其實跟最大努力一階段送出類似也會有部分可見問題，嚴格講一段時間内并不能保證A原子性和C一緻性（待故障恢複後recovery機制可以保證最終的A和C）。完備的分布式事務支援并不是一件簡單的事情，需要可以應對網絡以及各種硬體包括網卡、磁盤、CPU、記憶體、電源等各類異常，通過嚴格的測試。之前跟某友商交流，他們甚至說目前已知的NewSQL在分布式事務支援上都是不完整的，他們都有案例跑不過，圈内人士這麼笃定，也說明了分布式事務的支援完整程度其實是層次不齊的。

但分布式事務又是這些NewSQL資料庫的一個非常重要的底層機制，跨資源的DML、DDL等都依賴其實作，如果這塊的性能、完備性打折扣，上層跨分片SQL執行的正确性會受到很大影響。

性能

傳統關系資料庫也支援分布式事務XA，但為何很少有高并發場景下用呢？因為XA的基礎兩階段送出協定存在網絡開銷大，阻塞時間長、死鎖等問題，這也導緻了其實際上很少大規模用在基于傳統關系資料庫的OLTP系統中。NewSQL資料庫的分布式事務實作也仍然多基于兩階段送出協定，例如google percolator分布式事務模型，采用原子鐘+MVCC+ Snapshot Isolation（SI），這種方式通過TSO(Timestamp Oracle)保證了全局一緻性，通過MVCC避免了鎖，另外通過primary lock和secondary lock将送出的一部分轉為異步，相比XA确實提高了分布式事務的性能。

“SI是樂觀鎖，在熱點資料場景，可能會大量的送出失敗。另外SI的隔離級别與RR并非完全相同，它不會有幻想讀，但會有寫傾斜。”

但不管如何優化，相比于1PC，2PC多出來的GID擷取、網絡開銷、prepare日志持久化還是會帶來很大的性能損失，尤其是跨節點的數量比較多時會更加顯著，例如在銀行場景做個批量扣款，一個檔案可能上W個賬戶，這樣的場景無論怎麼做還是吞吐都不會很高。

“Spanner給出的分布式事務測試資料”

NewSQL資料庫VS分庫分表

雖然NewSQL分布式資料庫産品都宣傳完備支援分布式事務，但這并不是說應用可以完全不用關心資料拆分，這些資料庫的最佳實踐中仍然會寫到，應用的大部分場景盡可能避免分布式事務。

既然強一緻事務付出的性能代價太大，我們可以反思下是否真的需要這種強一緻的分布式事務？尤其是在做微服務拆分後，很多系統也不太可能放在一個統一的資料庫中。嘗試将一緻性要求弱化，便是柔性事務，放棄ACID(Atomicity,Consistency, Isolation, Durability)，轉投BASE(Basically Available,Soft state,Eventually consistent)，例如Saga、TCC、可靠消息保證最終一緻等模型，對于大規模高并發OLTP場景，我個人更建議使用柔性事務而非強一緻的分布式事務。關于柔性事務，筆者之前也寫過一個技術元件，最近幾年也湧現出了一些新的模型與架構（例如阿裡剛開源的Fescar），限于篇幅不再贅述，有空再單獨寫篇文章。

**“解決分布式事務是否隻能用兩階段送出協定？**oceanbase1.0中通過updateserver避免分布式事務的思路很有啟發性，不過2.0版後也變成了2PC。業界分布式事務也并非隻有兩階段送出這一解，也有其它方案its-time-to-move-on-from-two-phase(如果打不開，國内有翻譯版https://www.jdon.com/51588)”

HA與異地多活

主從模式并不是最優的方式，就算是半同步複制，在極端情況下（半同步轉異步）也存在丢數問題，目前業界公認更好的方案是基于paxos分布式一緻性協定或者其它類paxos如raft方式，Google Spanner、TiDB、cockcoachDB、OB都采用了這種方式，基于Paxos協定的多副本存儲，遵循過半寫原則，支援自動選主，解決了資料的高可靠，縮短了failover時間，提高了可用性，特别是減少了運維的工作量，這種方案技術上已經很成熟，也是NewSQL資料庫底層的标配。當然這種方式其實也可以用在傳統關系資料庫，阿裡、微信團隊等也有将MySQL存儲改造支援paxos多副本的，MySQL也推出了官方版MySQL Group Cluster，預計不遠的未來主從模式可能就成為曆史了。

“分布式一緻性算法本身并不難，但具體在工程實踐時，需要考慮很多異常并做很多優化，實作一個生産級可靠成熟的一緻性協定并不容易。例如實際使用時必須轉化實作為multi-paxos或multi-raft，需要通過batch、異步等方式減少網絡、磁盤IO等開銷。"

需要注意的是很多NewSQL資料庫廠商宣傳基于paxos或raft協定可以實作【異地多活】，這個實際上是有前提的，那就是異地之間網絡延遲不能太高。以銀行“兩地三中心”為例，異地之間多相隔數千裡，延時達到數十毫秒，如果要多活，那便需異地副本也參與資料庫日志過半确認，這樣高的延時幾乎沒有OLTP系統可以接受的。

資料庫層面做異地多活是個美好的願景，但距離導緻的延時目前并沒有好的方案。之前跟螞蟻團隊交流，螞蟻異地多活的方案是在應用層通過MQ同步雙寫交易資訊，異地DC将交易資訊儲存在分布式緩存中，一旦發生異地切換，資料庫同步中間件會告之資料延遲時間，應用從緩存中讀取交易資訊，将這段時間内涉及到的業務對象例如使用者、賬戶進行黑名單管理，等資料同步追上之後再将這些業務對象從黑名單中剔除。由于雙寫的不是所有資料庫記錄檔而隻是交易資訊，資料延遲隻影響一段時間内資料，這是目前我覺得比較靠譜的異地度多活方案。

另外有些系統進行了單元化改造，這在paxos選主時也要結合考慮進去，這也是目前很多NewSQL資料庫欠缺的功能。

Scale橫向擴充與分片機制

paxos算法解決了高可用、高可靠問題，并沒有解決Scale橫向擴充的問題，是以分片是必須支援的。NewSQL資料庫都是天生内置分片機制的，而且會根據每個分片的資料負載(磁盤使用率、寫入速度等)自動識别熱點，然後進行分片的分裂、資料遷移、合并，這些過程應用是無感覺的，這省去了DBA的很多運維工作量。以TiDB為例，它将資料切成region，如果region到64M時，資料自動進行遷移。

分庫分表模式下需要應用設計之初就要明确各表的拆分鍵、拆分方式（range、取模、一緻性哈希或者自定義路由表）、路由規則、拆分庫表數量、擴容方式等。相比NewSQL資料庫，這種模式給應用帶來了很大侵入和複雜度，這對大多數系統來說也是一大挑戰。

“分庫分表模式也能做到線上擴容，基本思路是通過異步複制先追加資料，然後設定隻讀完成路由切換，最後放開寫操作，當然這些需要中間件與資料庫端配合一起才能完成。”

這裡有個問題是NewSQL資料庫統一的内置分片政策（例如tidb基于range）可能并不是最高效的，因為與領域模型中的劃分要素并不一緻，這導緻的後果是很多交易會産生分布式事務。舉個例子，銀行核心業務系統是以客戶為次元，也就是說客戶表、該客戶的賬戶表、流水表在絕大部分場景下是一起寫的，但如果按照各表主鍵range進行分片，這個交易并不能在一個分片上完成，這在高頻OLTP系統中會帶來性能問題。

分布式SQL支援

常見的單分片SQL，這兩者都能很好支援。NewSQL資料庫由于定位與目标是一個通用的資料庫，是以支援的SQL會更完整，包括跨分片的join、聚合等複雜SQL。中間件模式多面向應用需求設計，不過大部分也支援帶拆分鍵SQL、庫表周遊、單庫join、聚合、排序、分頁等。但對跨庫的join以及聚合支援就不夠了。NewSQL資料庫一般并不支援存儲過程、視圖、外鍵等功能，而中間件模式底層就是傳統關系資料庫，這些功能如果隻是涉及單庫是比較容易支援的。NewSQL資料庫往往選擇相容MySQL或者PostgreSQL協定，是以SQL支援僅局限于這兩種，中間件例如驅動模式往往隻需做簡單的SQL解析、計算路由、SQL重寫，是以可以支援更多種類的資料庫SQL。

SQL支援的差異主要在于分布式SQL執行計劃生成器，由于NewSQL資料庫具有底層資料的分布、統計資訊，是以可以做CBO，生成的執行計劃效率更高，而中間件模式下沒有這些資訊，往往隻能基于規則RBO（Rule-Based-Opimization），這也是為什麼中間件模式一般并不支援跨庫join，因為實作了效率也往往并不高，還不如交給應用去做。

“這裡也可以看出中間件+分庫分表模式的架構風格展現出的是一種妥協、平衡，它是一個面向應用型的設計；而NewSQL資料庫則要求更高、“大包大攬”，它是一個通用底層技術軟體，是以後者的複雜度、技術門檻也高很多。”

存儲引擎

傳統關系資料庫的存儲引擎設計都是面向磁盤的，大多都基于B+樹。B+樹通過降低樹的高度減少随機讀、進而減少磁盤尋道次數，提高讀的性能，但大量的随機寫會導緻樹的分裂，進而帶來随機寫，導緻寫性能下降。NewSQL的底層存儲引擎則多采用LSM，相比B+樹LSM将對磁盤的随機寫變成順序寫，大大提高了寫的性能。不過LSM的的讀由于需要合并資料性能比B+樹差，一般來說LSM更适合應在寫大于讀的場景。當然這隻是單純資料結構角度的對比，在資料庫實際實作時還會通過SSD、緩沖、bloom filter等方式優化讀寫性能，是以讀性能基本不會下降太多。NewSQL資料由于多副本、分布式事務等開銷，相比單機關系資料庫SQL的響應時間并不占優，但由于叢集的彈性擴充，整體QPS提升還是很明顯的，這也是NewSQL資料庫廠商說分布式資料庫更看重的是吞吐，而不是單筆SQL響應時間的原因。

成熟度與生态

分布式資料庫是個新型通用底層軟體，準确的衡量與評價需要一個多元度的測試模型，需包括發展現狀、使用情況、社群生态、監控運維、周邊配套工具、功能滿足度、DBA人才、SQL相容性、性能測試、高可用測試、線上擴容、分布式事務、隔離級别、線上DDL等等，雖然NewSQL資料庫發展經過了一定時間檢驗，但多集中在網際網路以及傳統企業非核心交易系統中，目前還處于快速疊代、規模使用不斷優化完善的階段。相比而言，傳統關系資料庫則經過了多年的發展，通過完整的評測，在成熟度、功能、性能、周邊生态、風險把控、相關人才積累等多方面都具有明顯優勢，同時對已建系統的相容性也更好。對于網際網路公司，資料量的增長壓力以及追求新技術的基因會更傾向于嘗試NewSQL資料庫，不用再考慮庫表拆分、應用改造、擴容、事務一緻性等問題怎麼看都是非常吸引人的方案。對于傳統企業例如銀行這種風險意識較高的行業來說，NewSQL資料庫則可能在未來一段時間内仍處于探索、審慎試點的階段。基于中間件+分庫分表模式架構簡單，技術門檻更低，雖然沒有NewSQL資料庫功能全面，但大部分場景最核心的訴求也就是拆分後SQL的正确路由，而此功能中間件模式應對還是綽綽有餘的，可以說在大多數OLTP場景是夠用的。

限于篇幅，其它特性例如線上DDL、資料遷移、運維工具等特性就不在本文展開對比。

總結

如果看完以上内容，您還不知道選哪種模式，那麼結合以下幾個問題，先思考下NewSQL資料庫解決的點對于自身是不是真正的痛點：

● 強一緻事務是否必須在資料庫層解決？

● 資料的增長速度是否不可預估的？

● 擴容的頻率是否已超出了自身運維能力？

● 相比響應時間更看重吞吐？

● 是否必須做到對應用完全透明？

● 是否有熟悉NewSQL資料庫的DBA團隊？

如果以上有2到3個是肯定的，那麼你可以考慮用NewSQL資料庫了，雖然前期可能需要一定的學習成本，但它是資料庫的發展方向，未來收益也會更高，尤其是網際網路行業，随着資料量的突飛猛進，分庫分表帶來的痛苦會與日俱增。當然選擇NewSQL資料庫你也要做好承擔一定風險的準備。如果你還未做出抉擇，不妨再想想下面幾個問題：

● 最終一緻性是否可以滿足實際場景？

● 資料未來幾年的總量是否可以預估？

● 擴容、DDL等操作是否有系統維護視窗？

● 對響應時間是否比吞吐更敏感？

● 是否需要相容已有的關系資料庫系統？

● 是否已有傳統資料庫DBA人才的積累？

● 是否可容忍分庫分表對應用的侵入？

如果這些問題有多數是肯定的，那還是分庫分表吧。在軟體領域很少有完美的解決方案，NewSQL資料庫也不是資料分布式架構的銀彈。相比而言分庫分表是一個代價更低、風險更小的方案，它最大程度複用傳統關系資料庫生态，通過中間件也可以滿足分庫分表後的絕大多數功能，定制化能力更強。在目前NewSQL資料庫還未完全成熟的階段，分庫分表可以說是一個上限低但下限高的方案，尤其傳統行業的核心系統，如果你仍然打算把資料庫當做一個黑盒産品來用，踏踏實實用好分庫分表會被認為是個穩妥的選擇。

很多時候軟體選型取決于領域特征以及架構師風格，限于筆者知識與所屬行業特點所限，以上僅為個人粗淺的一些觀點，歡迎讨論。

NewSQL資料庫VS分庫分表

前言

NewSQL資料庫先進在哪兒？

分布式事務

HA與異地多活

Scale橫向擴充與分片機制

分布式SQL支援

存儲引擎

成熟度與生态

總結

繼續閱讀

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

set define off關閉替代變量功能

報錯：'mysql' 不是内部或外部指令，也不是可運作的程式或批處理檔案。

Linxu常用指令技巧彙總

ERROR 1 (HY000): Can't create/write to file '/tmp/#sql_4188_1.MYI' (Errcode: 28)

艱難安裝LDAP,SSL認證

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

neo4j之cypher使用文檔

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述