天天看點

一個秒殺系統的設計思考整體思考

秒殺大家都不陌生。自2011年首次出現以來,無論是雙十一購物還是 12306 搶票,秒殺場景已随處可見。簡單來說,秒殺就是在同一時刻大量請求争搶購買同一商品并完成交易的過程。從架構視角來看,秒殺系統本質是一個高性能、高一緻、高可用的三高系統。而打造并維護一個超大流量的秒殺系統需要進行哪些關注,就是本文讨論的話題。

整體思考

首先從高次元出發,整體思考問題。秒殺無外乎解決兩個核心問題,一是并發讀,一是并發寫,對應到架構設計,就是高可用、一緻性和高性能的要求。關于秒殺系統的設計思考,本文即基于此 3 層依次推進,簡述如下——

高性能:

秒殺涉及高讀和高寫的支援,如何支撐高并發,如何抵抗高IOPS?核心優化理念其實是類似的:高讀就盡量“少讀"或“讀少",高寫就資料拆分。本文将從動靜分離、熱點優化以及服務端性能優化 3 個方面展開。

一緻性:

秒殺的核心關注是商品庫存,有限的商品在同一時間被多個請求同時扣減,而且要保證準确性,顯而易見是一個難題。如何做到既不多又不少?本文将從業界通用的幾種減庫存方案切入,讨論一緻性設計的核心邏輯。

高可用:

大型分布式系統在實際運作過程中面對的工況是非常複雜的,業務流量的突增、依賴服務的不穩定、應用自身的瓶頸、實體資源的損壞等方方面面都會對系統的運作帶來大大小小的的沖擊。如何保障應用在複雜工況環境下還能高效穩定運作,如何預防和面對突發問題,系統設計時應該從哪些方面着手?本文将從架構落地的全景視角進行關注思考。

高性能

動靜分離

大家可能會注意到,秒殺過程中你是不需要重新整理整個頁面的,隻有時間在不停跳動。這是因為一般都會對大流量的秒殺系統做系統的靜态化改造,即資料意義上的動靜分離。動靜分離三步走:1、資料拆分;2、靜态緩存;3、資料整合。

**資料拆分

動靜分離的首**要目的是将動态頁面改造成适合緩存的靜态頁面。是以第一步就是分離出動态資料,主要從以下 2 個方面進行:

1.使用者。使用者身份資訊包括登入狀态以及登入畫像等,相關要素可以單獨拆分出來,通過動态請求進行擷取;與之相關的廣平推薦,如使用者偏好、地域偏好等,同樣可以通過異步方式進行加載

2.時間。秒殺時間是由服務端統一管控的,可以通過動态請求進行擷取這裡你可以打開電商平台的一個秒殺頁面,看看這個頁面裡都有哪些動靜資料。

靜态緩存

分離出動靜态資料之後,第二步就是将靜态資料進行合理的緩存,由此衍生出兩個問題:1、怎麼緩存;2、哪裡緩存

怎麼緩存:

靜态化改造的一個特點是直接緩存整個 HTTP 連接配接而不是僅僅緩存靜态資料,如此一來,Web 代理伺服器根據請求 URL,可以直接取出對應的響應體然後直接傳回,響應過程無需重組 HTTP 協定,也無需解析 HTTP 請求頭。而作為緩存鍵,URL唯一化是必不可少的,隻是對于商品系統,URL 天然是可以基于商品 ID 來進行唯一辨別的,比如淘寶的

https://item.taobao.com/item.htm?id=xxxx

哪裡緩存:

靜态資料緩存到哪裡呢?可以有三種方式:1、浏覽器;2、CDN ;3、服務端。

浏覽器當然是第一選擇,但使用者的浏覽器是不可控的,主要展現在如果使用者不主動重新整理,系統很難主動地把消息推送給使用者(注意,當讨論靜态資料時,潛台詞是 “相對不變”,言外之意是 “可能會變”),如此可能會導緻使用者端在很長一段時間内看到的資訊都是錯誤的。對于秒殺系統,保證緩存可以在秒級時間内失效是不可或缺的。

服務端主要進行動态邏輯計算及加載,本身并不擅長處理大量連接配接,每個連接配接消耗記憶體較多,同時 Servlet 容器解析 HTTP 較慢,容易侵占邏輯計算資源;另外,靜态資料下沉至此也會拉長請求路徑。

是以通常将靜态資料緩存在 CDN,其本身更擅長處理大并發的靜态檔案請求,既可以做到主動失效,又離使用者盡可能近,同時規避 Java 語言層面的弱點。需要注意的是,上 CDN 有以下幾個問題需要解決:

1.失效問題。任何一個緩存都應該是有時效的,尤其對于一個秒殺場景。是以,系統需要保證全國各地的 CDN 在秒級時間内失效掉緩存資訊,這實際對 CDN 的失效系統要求是很高的

2.命中率問題。高命中是緩存系統最為核心的性能要求,不然緩存就失去了意義。如果将資料放到全國各地的 CDN ,勢必會導緻請求命中同一個緩存的可能性降低,那麼命中率就成為一個問題

是以,将資料放到全國所有的 CDN 節點是不太現實的,失效問題、命中率問題都會面臨比較大的挑戰。更為可行的做法是選擇若幹 CDN 節點進行靜态化改造,節點的選取通常需要滿足以下幾個條件:

臨近通路量集中的地區

距離主站較遠的地區

節點與主站間網絡品質良好的地區

基于以上因素,選擇 CDN 的二級緩存比較合适,因為二級緩存數量偏少,容量也更大,通路量相對集中,這樣就可以較好解決緩存的失效問題以及命中率問題,是目前比較理想的一種 CDN 化方案。部署方式如下圖所示:

一個秒殺系統的設計思考整體思考

資料整合

分離出動靜态資料之後,前端如何組織資料頁就是一個新的問題,主要在于動态資料的加載處理,通常有兩種方案:ESI(Edge Side Includes)方案和 CSI(Client Side Include)方案。

ESI 方案:Web 代理伺服器上請求動态資料,并将動态資料插入到靜态頁面中,使用者看到頁面時已經是一個完整的頁面。這種方式對服務端性能要求高,但使用者體驗較好。

CSI 方案:Web 代理伺服器上隻傳回靜态頁面,前端單獨發起一個異步 JS 請求動态資料。這種方式對服務端性能友好,但使用者體驗稍差。

小結

動靜分離對于性能的提升,抽象起來隻有兩點,一是資料要盡量少,以便減少沒必要的請求,二是路徑要盡量短,以便提高單次請求的效率。具體方法其實就是基于這個大方向進行的。

**

熱點優化**

熱點分為熱點操作和熱點資料,以下分開進行讨論。

熱點操作

零點重新整理、零點下單、零點添加購物車等都屬于熱點操作。熱點操作是使用者的行為,不好改變,但可以做一些限制保護,比如使用者頻繁重新整理頁面時進行提示阻斷。

熱點資料

熱點資料的處理三步走,一是熱點識别,二是熱點隔離,三是熱點優化。

1、熱點識别

熱點資料分為靜态熱點和動态熱點,具體如下:

1.靜态熱點:能夠提前預測的熱點資料。大促前夕,可以根據大促的行業特點、活動商家等緯度資訊分析出熱點商品,或者通過賣家報名的方式提前篩選;另外,還可以通過技術手段提前預測,例如對買家每天通路的商品進行大資料計算,然後統計出 TOP N 的商品,即可視為熱點商品

2.動态熱點:無法提前預測的熱點資料。冷熱資料往往是随實際業務場景發生交替變化的,尤其是如今直播賣貨模式的興起——帶貨商臨時做一個廣告,就有可能導緻一件商品在短時間内被大量購買。由于此類商品日常通路較少,即使在緩存系統中一段時間後也會被逐出或過期掉,甚至在 DB 中也是冷資料。瞬時流量的湧入,往往導緻緩存被擊穿,請求直接到達 DB,引發 DB 壓力過大

是以秒殺系統需要實作熱點資料的動态發現能力,一個常見的實作思路是:

1.異步采集交易鍊路各個環節的熱點 Key 資訊,如 Nginx 采集通路 URL 或 Agent 采集熱點日志(一些中間件本身已具備熱點發現能力),提前識别潛在的熱點資料

2.聚合分析熱點資料,達到一定規則的熱點資料,通過訂閱分發推送到鍊路系統,各系統根據自身需求決定如何處理熱點資料,或限流或緩存,進而實作熱點保護

需要注意的是:

1.熱點資料采集最好采用異步方式,一方面不會影響業務的核心交易鍊路,一方面可以保證采集方式的通用性

2.熱點發現最好做到秒級實時,這樣動态發現才有意義,實際上也是對核心節點的資料采集和分析能力提出了較高的要求

2、熱點隔離

熱點資料識别出來之後,第一原則就是将熱點資料隔離出來,不要讓 1% 影響到另外的 99%,可以基于以下幾個層次實作熱點隔離:

1.業務隔離。秒殺作為一種營銷活動,賣家需要單獨報名,從技術上來說,系統可以提前對已知熱點做緩存預熱

2.系統隔離。系統隔離是運作時隔離,通過分組部署和另外 99% 進行分離,另外秒殺也可以申請單獨的域名,入口層就讓請求落到不同的叢集中

3.資料隔離。秒殺資料作為熱點資料,可以啟用單獨的緩存叢集或者 DB 服務組,進而更好的實作橫向或縱向能力擴充

當然,實作隔離還有很多種辦法。比如,可以按照使用者來區分,為不同的使用者配置設定不同的 Cookie,入口層路由到不同的服務接口中;再比如,域名保持一緻,但後端調用不同的服務接口;又或者在資料層給資料打标進行區分等等,這些措施的目的都是把已經識别的熱點請求和普通請求區分開來。

3、熱點優化

熱點資料隔離之後,也就友善對這 1% 的請求做針對性的優化,方式無外乎兩種:

1.緩存:熱點緩存是最為有效的辦法。如果熱點資料做了動靜分離,那麼可以長期緩存靜态資料

2.限流:流量限制更多是一種保護機制。需要注意的是,各服務要時刻關注請求是否觸發限流并及時進行review

4、小結

資料的熱點優化與動靜分離是不一樣的,熱點優化是基于二八原則對資料進行了縱向拆分,以便進行針對性地處理。熱點識别和隔離不僅對“秒殺”這個場景有意義,對其他的高性能分布式系統也非常有參考價值。

系統優化

對于一個軟體系統,提高性能可以有很多種手段,如提升硬體水準、調優JVM 性能,這裡主要關注代碼層面的性能優化——

1.減少序列化:

減少 Java 中的序列化操作可以很好的提升系統性能。序列化大部分是在 RPC 階段發生,是以應該盡量減少 RPC 調用,一種可行的方案是将多個關聯性較強的應用進行 “合并部署”,進而減少不同應用之間的 RPC 調用(微服務設計規範)

2.直接輸出流資料:

隻要涉及字元串的 I/O 操作,無論是磁盤 I/O 還是網絡 I/O,都比較耗費 CPU 資源,因為字元需要轉換成位元組,而這個轉換又必須查表編碼。是以對于常用資料,比如靜态字元串,推薦提前編碼成位元組并緩存,具體到代碼層面就是通過 OutputStream() 類函數進而減少資料的編碼轉換;另外,熱點方法 toString() 不要直接調用 ReflectionToString 實作,推薦直接寫死,并且隻列印 DO 的基礎要素和核心要素

3.裁剪日志異常堆棧:

無論是外部系統異常還是應用本身異常,都會有堆棧打出,超大流量下,頻繁的輸出完整堆棧,隻會加劇系統目前負載。可以通過日志配置檔案控制異常堆棧輸出的深度

4.去元件架構:

極緻優化要求下,可以去掉一些元件架構,比如去掉傳統的 MVC 架構,直接使用 Servlet 處理請求。這樣可以繞過一大堆複雜且用處不大的處理邏輯,節省毫秒級的時間,當然,需要合理評估你對架構的依賴程度

總結一下

性能優化需要一個基準值,是以系統還需要做好應用基線,比如性能基線(何時性能突然下降)、成本基線(去年大促用了多少機器)、鍊路基線(核心流程發生了哪些變化),通過基線持續關注系統性能,促使系統在代碼層面持續提升編碼品質、業務層面及時下掉不合理調用、架構層面不斷優化改進。

一緻性

秒殺系統中,庫存是個關鍵資料,賣不出去是個問題,超賣更是個問題。秒殺場景下的一緻性問題,主要就是庫存扣減的準确性問題。

減庫存的方式

電商場景下的購買過程一般分為兩步:下單和付款。“送出訂單”即為下單,“支付訂單”即為付款。基于此設定,減庫存一般有以下幾個方式:

1.下單減庫存。買家下單後,扣減商品庫存。下單減庫存是最簡單的減庫存方式,也是控制最為精确的一種

2.付款減庫存。買家下單後,并不立即扣減庫存,而是等到付款後才真正扣減庫存。但因為付款時才減庫存,如果并發比較高,可能出現買家下單後付不了款的情況,因為商品已經被其他人買走了

3.預扣庫存。這種方式相對複雜一些,買家下單後,庫存為其保留一定的時間(如 15 分鐘),超過這段時間,庫存自動釋放,釋放後其他買家可以購買

能夠看到,減庫存方式是基于購物過程的多階段進行劃分的,但無論是在下單階段還是付款階段,都會存在一些問題,下面進行具體分析。

減庫存的問題

下單減庫存

優勢:使用者體驗最好。下單減庫存是最簡單的減庫存方式,也是控制最精确的一種。下單時可以直接通過資料庫事務機制控制商品庫存,是以一定不會出現已下單卻付不了款的情況。

劣勢:可能賣不出去。正常情況下,買家下單後付款機率很高,是以不會有太大問題。但有一種場景例外,就是當賣家參加某個促銷活動時,競争對手通過惡意下單的方式将該商品全部下單,導緻庫存清零,那麼這就不能正常售賣了——要知道,惡意下單的人是不會真正付款的,這正是 “下單減庫存” 的不足之處。

付款減庫存

優勢:一定實際售賣。“下單減庫存” 可能導緻惡意下單,進而影響賣家的商品銷售, “付款減庫存” 由于需要付出真金白銀,可以有效避免。

劣勢:使用者體驗較差。使用者下單後,不一定會實際付款,假設有 100 件商品,就可能出現 200 人下單成功的情況,因為下單時不會減庫存,是以也就可能出現下單成功數遠遠超過真正庫存數的情況,這尤其會發生在大促的熱門商品上。如此一來就會導緻很多買家下單成功後卻付不了款,購物體驗自然是比較差的。

預扣庫存

優勢:緩解了以上兩種方式的問題。預扣庫存實際就是“下單減庫存”和 “付款減庫存”兩種方式的結合,将兩次操作進行了前後關聯,下單時預扣庫存,付款時釋放庫存。

劣勢:并沒有徹底解決以上問題。比如針對惡意下單的場景,雖然可以把有效付款時間設定為 10 分鐘,但惡意買家完全可以在 10 分鐘之後再次下單。

小結:

減庫存的問題主要展現在使用者體驗和商業訴求兩方面,其本質原因在于購物過程存在兩步甚至多步操作,在不同階段減庫存,容易存在被惡意利用的漏洞。

實際如何減庫存

業界最為常見的是預扣庫存。無論是外賣點餐還是電商購物,下單後一般都有個 “有效付款時間”,超過該時間訂單自動釋放,這就是典型的預扣庫存方案。但如上所述,預扣庫存還需要解決惡意下單的問題,保證商品賣的出去;另一方面,如何避免超賣,也是一個痛點。

賣的出去:惡意下單的解決方案主要還是結合安全和反作弊措施來制止。比如,識别頻繁下單不付款的買家并進行打标,這樣可以在打标買家下單時不減庫存;再比如為大促商品設定單人最大購買件數,一人最多隻能買 N 件商品;又或者對重複下單不付款的行為進行次數限制阻斷等。

避免超賣:庫存超賣的情況實際分為兩種。對于普通商品,秒殺隻是一種大促手段,即使庫存超賣,商家也可以通過補貨來解決;而對于一些商品,秒殺作為一種營銷手段,完全不允許庫存為負,也就是在資料一緻性上,需要保證大并發請求時資料庫中的庫存字段值不能為負,一般有多種方案:一是在通過事務來判斷,即保證減後庫存不能為負,否則就復原;二是直接設定資料庫字段類型為無符号整數,這樣一旦庫存為負就會在執行 SQL 時報錯;三是使用 CASE WHEN 判斷語句:

UPDATE item SET inventory

CASE WHEN inventory

xxx THEN inventory

xxx ELSE inventory

業務手段保證商品賣的出去,技術手段保證商品不會超賣,庫存問題從來就不是簡單的技術難題,解決問題的視角是多種多樣的。

一緻性性能的優化

庫存是個關鍵資料,更是個熱點資料。對系統來說,熱點的實際影響就是 “高讀” 和 “高寫”,也是秒殺場景下最為核心的一個技術難題

高并發讀

秒殺場景解決高并發讀問題,關鍵詞是“分層校驗”。即在讀鍊路時,隻進行不影響性能的檢查操作,如使用者是否具有秒殺資格、商品狀态是否正常、使用者答題是否正确、秒殺是否已經結束、是否非法請求等,而不做一緻性校驗等容易引發瓶頸的檢查操作;直到寫鍊路時,才對庫存做一緻性檢查,在資料層保證最終準确性。

是以,在分層校驗設定下,系統可以采用分布式緩存甚至 LocalCache 來抵抗高并發讀。即允許讀場景下一定的髒資料,這樣隻會導緻少量原本無庫存的下單請求被誤認為是有庫存的,等到真正寫資料時再保證最終一緻性,由此做到高可用和一緻性之間的平衡。

實際上,分層校驗的核心思想是:不同層次盡可能過濾掉無效請求,隻在“漏鬥” 最末端進行有效處理,進而縮短系統瓶頸的影響路徑。

高并發寫

高并發寫的優化方式,一種是更換 DB 選型,一種是優化 DB 性能,以下分别進行讨論。

1、更換DB選型

秒殺商品和普通商品的減庫存是有差異的,核心差別在資料量級小、交易時間短,是以能否把秒殺減庫存直接放到緩存系統中實作呢,也就是直接在一個帶有持久化功能的緩存中進行減庫存操作,比如 Redis?

如果減庫存邏輯非常單一的話,比如沒有複雜的 SKU 庫存和總庫存這種關聯關系的話,個人認為是完全可以的。但如果有比較複雜的減庫存邏輯,或者需要使用到事務,那就必須在資料庫中完成減庫存操作。

2、優化DB性能

庫存資料落地到資料庫實作其實是一行存儲(MySQL),是以會有大量線程來競争 InnoDB 行鎖。但并發越高,等待線程就會越多,TPS 下降,RT 上升,吞吐量會受到嚴重影響——注意,這裡假設資料庫已基于上文【性能優化】完成資料隔離,以便于讨論聚焦 。

解決并發鎖的問題,有兩種辦法:

應用層排隊。

通過緩存加入叢集分布式鎖,進而控制叢集對資料庫同一行記錄進行操作的并發度,同時也能控制單個商品占用資料庫連接配接的數量,防止熱點商品占用過多的資料庫連接配接

資料層排隊。

應用層排隊是有損性能的,資料層排隊是最為理想的。業界中,阿裡的資料庫團隊開發了針對 InnoDB 層上的更新檔程式(patch),可以基于 DB 層對單行記錄做并發排隊,進而實作秒殺場景下的定制優化——注意,排隊和鎖競争是有差別的,如果熟悉 MySQL 的話,就會知道 InnoDB 内部的死鎖檢測,以及 MySQL Server 和 InnoDB 的切換都是比較消耗性能的。另外阿裡的資料庫團隊還做了很多其他方面的優化,如 COMMIT_ON_SUCCESS 和 ROLLBACK_ON_FAIL 的更新檔程式,通過在 SQL 裡加入提示(hint),實作事務不需要等待實時送出,而是在資料執行完最後一條 SQL 後,直接根據 TARGET_AFFECT_ROW 的結果進行送出或復原,減少網絡等待的時間(毫秒級)。目前阿裡已将包含這些更新檔程式的 MySQL 開源:AliSQL

高讀和高寫的兩種處理方式大相徑庭。讀請求的優化空間要大一些,而寫請求的瓶頸一般都在存儲層,優化思路的本質還是基于 CAP 理論做平衡。

總結一下:

當然,減庫存還有很多細節問題,例如預扣的庫存逾時後如何進行回補,再比如第三方支付如何保證減庫存和付款時的狀态一緻性,這些也是很大的挑戰。

高可用

盯過秒殺流量監控的話,會發現它不是一條蜿蜒而起的曲線,而是一條挺拔的直線,這是因為秒殺請求高度集中于某一特定的時間點。這樣一來就會造成一個特别高的零點峰值,而對資源的消耗也幾乎是瞬時的。是以秒殺系統的可用性保護是不可或缺的。

流量削峰

對于秒殺的目标場景,最終能夠搶到商品的人數是固定的,無論 100 人和 10000 人參加結果都是一樣的,即有效請求額度是有限的。并發度越高,無效請求也就越多。但秒殺作為一種商業營銷手段,活動開始之前是希望有更多的人來刷頁面,隻是真正開始後,秒殺請求不是越多越好。是以系統可以設計一些規則,人為的延緩秒殺請求,甚至可以過濾掉一些無效請求。

答題

早期秒殺隻是簡單的點選秒殺按鈕,後來才增加了答題。為什麼要增加答題呢?主要是通過提升購買的複雜度,達到兩個目的:

1.防止作弊。早期秒殺器比較猖獗,存在惡意買家或競争對手使用秒殺器掃貨的情況,商家沒有達到營銷的目的,是以增加答題來進行限制

2.延緩請求。零點流量的起效時間是毫秒級的,答題可以人為拉長峰值下單的時長,由之前的 <1s 延長到 <10s。這個時間對于服務端非常重要,會大大減輕高峰期并發壓力;另外,由于請求具有先後順序,答題後置的請求到來時可能已經沒有庫存了,是以根本無法下單,此階段落到資料層真正的寫也就非常有限了

排隊

最為常見的削峰方案是使用消息隊列,通過把同步的直接調用轉換成異步的間接推送緩沖瞬時流量。除了消息隊列,類似的排隊方案還有很多,例如:

1.線程池加鎖等待

2.本地記憶體蓄洪等待

3.本地檔案序列化寫,再順序讀

排隊方式的弊端也是顯而易見的,主要有兩點:

1.請求積壓。流量高峰如果長時間持續,達到了隊列的水位上限,隊列同樣會被壓垮,這樣雖然保護了下遊系統,但是和請求直接丢棄也沒多大差別

2.使用者體驗。異步推送的實時性和有序性自然是比不上同步調用的,由此可能出現請求先發後至的情況,影響部分敏感使用者的購物體驗

排隊本質是在業務層将一步操作轉變成兩步操作,進而起到緩沖的作用,但鑒于此種方式的弊端,最終還是要基于業務量級和秒殺場景做出妥協和平衡。

過濾

過濾的核心結構在于分層,通過在不同層次過濾掉無效請求,達到資料讀寫的精準觸發。常見的過濾主要有以下幾層:

1.讀限流:對讀請求做限流保護,将超出系統承載能力的請求過濾掉

2.讀緩存:對讀請求做資料緩存,将重複的請求過濾掉

3.寫限流:對寫請求做限流保護,将超出系統承載能力的請求過濾掉

4.寫校驗:對寫請求做一緻性校驗,隻保留最終的有效資料

過濾的核心目的是通過減少無效請求的資料 IO 保障有效請求的 IO 性能。

系統可以通過入口層的答題、業務層的排隊、資料層的過濾達到流量削峰的目的,本質是在尋求商業訴求與架構性能之間的平衡。另外,新的削峰手段也層出不窮,以業務切入居多,比如零點大促時同步發放優惠券或發起抽獎活動,将一部分流量分散到其他系統,這樣也能起到削峰的作用。

Plan B

當一個系統面臨持續的高峰流量時,其實是很難單靠自身調整來恢複狀态的,日常運維沒有人能夠預估所有情況,意外總是無法避免。尤其在秒殺這一場景下,為了保證系統的高可用,必須設計一個 Plan B 方案來進行兜底。

高可用建設,其實是一個系統工程,貫穿在系統建設的整個生命周期。

一個秒殺系統的設計思考整體思考

具體來說,系統的高可用建設涉及架構階段、編碼階段、測試階段、釋出階段、運作階段,以及故障發生時,逐一進行分析:

架構階段:考慮系統的可擴充性和容錯性,避免出現單點問題。例如多地單元化部署,即使某個 IDC 甚至地市出現故障,仍不會影響系統運轉

編碼階段:保證代碼的健壯性,例如 RPC 調用時,設定合理的逾時退出機制,防止被其他系統拖垮,同時也要對無法預料的傳回錯誤進行預設的處理

測試階段:保證 CI 的覆寫度以及 Sonar 的容錯率,對基礎品質進行二次校驗,并定期産出整體品質的趨勢報告

釋出階段:系統部署最容易暴露錯誤,是以要有前置的 checklist 模版、中置的上下遊周知機制以及後置的復原機制

運作階段:系統多數時間處于運作态,最重要的是運作時的實時監控,及時發現問題、準确報警并能提供詳細資料,以便排查問題

故障發生:首要目标是及時止損,防止影響面擴大,然後定位原因、解決問題,最後恢複服務

對于日常運維而言,高可用更多是針對運作階段而言的,此階段需要額外進行加強建設,主要有以下幾種手段:

預防:建立常态壓測體系,定期對服務進行單點壓測以及全鍊路壓測,摸排水位

管控:做好線上運作的降級、限流和熔斷保護。需要注意的是,無論是限流、降級還是熔斷,對業務都是有損的,是以在進行操作前,一定要和上下遊業務确認好再進行。就拿限流來說,哪些業務可以限、什麼情況下限、限流時間多長、什麼情況下進行恢複,都要和業務方反複确認

監控:建立性能基線,記錄性能的變化趨勢;建立報警體系,發現問題及時預警

恢複:遇到故障能夠及時止損,并提供快速的資料訂正工具,不一定要好,但一定要有

在系統建設的整個生命周期中,每個環節中都可能犯錯,甚至有些環節犯的錯,後面是無法彌補的或者成本極高的。是以高可用是一個系統工程,必須放到整個生命周期中進行全面考慮。同時,考慮到服務的增長性,高可用更需要長期規劃并進行體系化建設。

高可用其實是在說 “穩定性”,穩定性是一個平時不重要,但出了問題就要命的事情,然而它的落地又是一個問題——平時業務發展良好,穩定性建設就會降級給業務讓路。解決這個問題必須在組織上有所保障,比如讓業務負責人背上穩定性績效名額,同時在部門中建立穩定性建設小組,小組成員由每條線的核心力量兼任,績效由穩定性負責人來打分,這樣就可以把體系化的建設任務落實到具體的業務系統中了。

個人總結

一個秒殺系統的設計,可以根據不同級别的流量,由簡單到複雜打造出不同的架構,本質是各方面的取舍和權衡。當然,你可能注意到,本文并沒有涉及具體的選型方案,因為這些對于架構來說并不重要,作為架構師,應該時刻提醒自己主線是什麼。

同時也在這裡抽象、提煉一下,主要是個人對于秒殺設計的提綱式整理,友善各位同學進行參考!

一個秒殺系統的設計思考整體思考