天天看點

網際網路架構開發專業名詞

本文參考内容來自于:大型網站技術架構核心原理與案例分析

1. 分層

    分層是企業應用系統中最常見的一種架構模式,将系統在橫向次元上切分成幾個部分,每個部分負責一部分相對比較單一的職責,然後通過上層對下層的依賴和調用組成一個完整的系統。分層結構在計算機世界中無處不在,網絡的 7 層通信協定是一種分層結構;計算機硬體、作業系統、應用軟體也可以看作是一種分層結構。在大型網站架構中也采用分層結構,将網站軟體系統分為應用層、服務層、資料層,如表 2.1 所示。

網際網路架構開發專業名詞

通過分層,可以更好地将一個龐大的軟體系統切分成不同的部分,便于分工合作開發和維護;各層之間具有一定的獨立性,隻要維持調用接口不變,各層可以根據具體問題獨立演化發展而不需要其他層必須做出相應調整。但是分層架構也有一些挑戰,就是必須合理規劃層次邊界和接口,在開發過程中,嚴格遵循分層架構的限制,禁止跨層次的調用(應用層直接調用資料層)及逆向調用(資料層調用服務層,或者服務層調用應用層)。

在實踐中,大的分層結構内部還可以繼續分層,如應用層可以再細分為視圖層(美工負責)和業務邏輯層(工程師負責);服務層也可以細分為資料接口層(适配各種輸入和輸出的資料格式)和邏輯處理層。分層架構是邏輯上的,在實體部署上,三層結構可以部署在同一個實體機器上,但是随着網站業務的發展,必然需要對已經分層的子產品分離部署,即三層結構分别部署在不同的伺服器上,使網站擁有更多的計算資源以應對越來越多的使用者通路。是以雖然分層架構模式最初的目的是規劃軟體清晰的邏輯結構便于開發維護,但在網站的發展過程中,分層結構對網站支援高并發向分布式方向發展至關重要。是以在網站規模還很小的時候就應該采用分層的架構,這樣将來網站做大時才能有更好地應對。

2. 分割

    如果說分層是将軟體在橫向方面進行切分,那麼分割就是在縱向方面對軟體進行切分。網站越大,功能越複雜,服務和資料處理的種類也越多,将這些不同的功能和服務分割開來,包裝成高内聚低耦合的子產品單元,一方面有助于軟體的開發和維護;另一方面,便于不同子產品的分布式部署,提高網站的并發處理能力和功能擴充能力。大型網站分割的粒度可能會很小。比如在應用層,将不同業務進行分割,例如将購物、論壇、搜尋、廣告分割成不同的應用,由獨立的團隊負責,部署在不同的伺服器上;在同一個應用内部,如果規模龐大業務複雜,會繼續進行分割,比如購物業務,可以進一步分割成機票酒店業務、3C 業務,小商品業務等更細小的粒度。而即使在這個粒度上,還是可以繼續分割成首頁、搜尋清單、商品詳情等子產品,這些子產品不管在邏輯上還是實體部署上,都可以是獨立的。同樣在服務層也可以根據需要将服務分割成合适的子產品。

3. 分布式

    對于大型網站,分層和分割的一個主要目的是為了切分後的子產品便于分布式部署,即将不同子產品部署在不同的伺服器上,通過遠端調用協同工作。分布式意味着可以使用更多的計算機完成同樣的功能,計算機越多,CPU、記憶體、存儲資源也就越多,能夠處理的并發通路和資料量就越大,進而能夠為更多的使用者提供服務。但分布式在解決網站高并發問題的同時也帶來了其他問題。首先,分布式意味着服務調用必須通過網絡,這可能會對性能造成比較嚴重的影響;其次,伺服器越多,伺服器當機的機率也就越大,一台伺服器當機造成的服務不可用可能會導緻很多應用不可通路,使網站可用性降低;另外,資料在分布式的環境中保持資料一緻性也非常困難,分布式事務也難以保證,這對網站業務正确性和業務流程有可能造成很大影響;分布式還導緻網站依賴錯綜複雜,開發管理維護困難。是以分布式設計要根據具體情況量力而行,切莫為了分布式而分布式。在網站應用中,常用的分布式方案有以下幾種。分布式應用和服務:将分層和分割後的應用和服務子產品分布式部署,除了可以改善網站性能和并發性、加快開發和釋出速度、減少資料庫連接配接資源消耗外;還可以使不同應用複用共同的服務,便于業務功能擴充。

分布式靜态資源:網站的靜态資源如 JS,CSS,Logo 圖檔等資源獨立分布式部署,并采用獨立的域名,即人們常說的動靜分離。靜态資源分布式部署可以減輕應用伺服器的負載壓力;通過使用獨立域名加快浏覽器并發加載的速度;由負責使用者體驗的團隊進行開發維護有利于網站分工合作,使不同技術工種術業有專攻。分布式資料和存儲:大型網站需要處理以 P 為機關的海量資料,單台計算機無法提供如此大的存儲空間,這些資料需要分布式存儲。除了對傳統的關系資料庫進行分布式部署外,為網站應用而生的各種 NoSQL 産品幾乎都是分布式的。分布式計算:嚴格說來,應用、服務、實時資料處理都是計算,網站除了要處理這些線上業務,還有很大一部分使用者沒有直覺感受的背景業務要處理,包括搜尋引擎的索引建構、資料倉庫的資料分析統計等。這些業務的計算規模非常龐大,目前網站普遍使用 Hadoop 及其 MapReduce 分布式計算架構進行此類批處理計算,其特點是移動計算而不是移動資料,将計算程式分發到資料所在的位置以加速計算和分布式計算。此外,還有可以支援網站線上伺服器配置實時更新的分布式配置;分布式環境下實作并發和協同的分布式鎖;支援雲存儲的分布式檔案系統等。

4. 叢集

    使用分布式雖然已經将分層和分割後的子產品獨立部署,但是對于使用者通路集中的子產品(比如網站的首頁),還需要将獨立部署的伺服器叢集化,即多台伺服器部署相同應用構成一個叢集,通過負載均衡裝置共同對外提供服務。因為伺服器叢集有更多伺服器提供相同服務,是以可以提供更好的并發特性,當有更多使用者通路的時候,隻需要向叢集中加入新的機器即可。同時因為一個應用由多台伺服器提供,當某台伺服器發生故障時,負載均衡裝置或者系統的失效轉移機制會将請求轉發到叢集中其他伺服器上,使伺服器故障不影響使用者使用。是以在網站應用中,即使是通路量很小的分布式應用和服務,也至少要部署兩台伺服器構成一個小的叢集,目的就是提高系統的可用性。

5. 緩存

    緩存就是将資料存放在距離計算最近的位置以加快處理速度。緩存是改善軟體性能的第一手段,現代 CPU 越來越快的一個重要因素就是使用了更多的緩存,在複雜的軟體設計中,緩存幾乎無處不在。大型網站架構設計在很多方面都使用了緩存設計。CDN:即内容分發網絡,部署在距離終端使用者最近的網絡服務商,使用者的網絡請求總是先到達他的網絡服務商那裡,在這裡緩存網站的一些靜态資源(較少變化的資料),可以就近以最快速度傳回給使用者,如視訊網站和門戶網站會将使用者通路量大的熱點内容緩存在 CDN。反向代理:反向代理屬于網站前端架構的一部分,部署在網站的前端,當使用者請求到達網站的資料中心時,最先通路到的就是反向代理伺服器,這裡緩存網站的靜态資源,無需将請求繼續轉發給應用伺服器就能傳回給使用者。本地緩存:在應用伺服器本地緩存着熱點資料,應用程式可以在本機記憶體中直接通路資料,而無需通路資料庫。分布式緩存:大型網站的資料量非常龐大,即使隻緩存一小部分,需要的記憶體空間也不是單機能承受的,是以除了本地緩存,還需要分布式緩存,将資料緩存在一個專門的分布式緩存叢集中,應用程式通過網絡通信通路緩存資料。使用緩存有兩個前提條件,一是資料通路熱點不均衡,某些資料會被更頻繁的通路,這些資料應該放在緩存中;二是資料在某個時間段内有效,不會很快過期,否則緩存的資料就會因已經失效而産生髒讀,影響結果的正确性。網站應用中,緩存除了可以加快資料通路速度,還可以減輕後端應用和資料存儲的負載壓力,這一點對網站資料庫架構至關重要,網站資料庫幾乎都是按照有緩存的前提進行負載能力設計的。

6. 異步

    計算機軟體發展的一個重要目标和驅動力是降低軟體耦合性。事物之間直接關系越少,就越少被彼此影響,越可以獨立發展。大型網站架構中,系統解耦合的手段除了前面提到的分層、分割、分布等,還有一個重要手段是異步,業務之間的消息傳遞不是同步調用,而是将一個業務操作分成多個階段,每個階段之間通過共享資料的方式異步執行進行協作。在單一伺服器内部可通過多線程共享記憶體隊列的方式實作異步,處在業務操作前面的線程将輸出寫入到隊列,後面的線程從隊列中讀取資料進行處理;在分布式系統中,多個伺服器叢集通過分布式消息隊列實作異步,分布式消息隊列可以看作記憶體隊列的分布式部署。異步架構是典型的生産者消費者模式,兩者不存在直接調用,隻要保持資料結構不變,彼此功能實作可以随意變化而不互相影響,這對網站擴充新功能非常便利。除此之外,使用異步消息隊列還有如下特性。提高系統可用性。消費者伺服器發生故障,資料會在消息隊列伺服器中存儲堆積,生産者伺服器可以繼續處理業務請求,系統整體表現無故障。消費者伺服器恢複正常後,繼續處理消息隊列中的資料。加快網站響應速度。處在業務處理前端的生産者伺服器在處理完業務請求後,将資料寫入消息隊列,不需要等待消費者伺服器處理就可以傳回,響應延遲減少。消除并發通路高峰。使用者通路網站是随機的,存在通路高峰和低谷,即使網站按照一般通路高峰進行規劃和部署,也依然會出現突發事件,比如購物網站的促銷活動,微網誌上的熱點事件,都會造成網站并發通路突然增大,這可能會造成整個網站負載過重,響應延遲,嚴重時甚至會出現服務當機的情況。使用消息隊列将突然增加的通路請求資料放入消息隊列中,等待消費者伺服器依次處理,就不會對整個網站負載造成太大壓力。但需要注意的是,使用異步方式處理業務可能會對使用者體驗、業務流程造成影響,需要網站産品設計方面的支援。

7. 備援

    網站需要 7*24 小時連續運作,但是伺服器随時可能出現故障,特别是伺服器規模比較大時,出現某台伺服器當機是必然事件。要想保證在伺服器當機的情況下網站依然可以繼續服務,不丢失資料,就需要一定程度的伺服器備援運作,資料備援備份,這樣當某台伺服器當機時,可以将其上的服務和資料通路轉移到其他機器上。通路和負載很小的服務也必須部署至少兩台伺服器構成一個叢集,其目的就是通過備援實作服務高可用。資料庫除了定期備份,存檔儲存,實作冷備份外,為了保證線上業務高可用,還需要對資料庫進行主從分離,實時同步實作熱備份。為了抵禦地震、海嘯等不可抗力導緻的網站完全癱瘓,某些大型網站會對整個資料中心進行備份,全球範圍内部署災備資料中心。網站程式和資料實時同步到多個災備資料中心。

8. 自動化

    在無人值守的情況下網站可以正常運作,一切都可以自動化是網站的理想狀态。目前大型網站的自動化架構設計主要集中在釋出運維方面。釋出對網站都是頭等大事,許多網站故障出在釋出環節,網站工程師經常加班也是因為釋出不順利。通過減少人為幹預,使釋出過程自動化可有效減少故障。釋出過程包括諸多環節。自動化代碼管理,代碼版本控制、代碼分支建立合并等過程自動化,開發工程師隻要送出自己參與開發的産品代号,系統就會自動為其建立開發分支,後期會自動進行代碼合并;自動化測試,代碼開發完成,送出測試後,系統自動将代碼部署到測試環境,啟動自動化測試用例進行測試,向相關人員發送測試報告,向系統回報測試結果;自動化安全檢測,安全檢測工具通過對代碼進行靜态安全掃描及部署到安全測試環境進行安全攻擊測試,評估其安全性;最後進行自動化部署,将工程代碼自動部署到線上生産環境。此外,網站在運作過程中可能會遇到各種問題:伺服器當機、程式 Bug、存儲空間不足、突然爆發的通路高峰。網站需要對線上生産環境進行自動化監控,對伺服器進行心跳檢測,并監控其各項性能名額和應用程式的關鍵資料名額。如果發現異常、超出預設的門檻值,就進行自動化報警,向相關人員發送報警資訊,警告故障可能會發生。在檢測到故障發生後,系統會進行自動化失效轉移,将失效的伺服器從叢集中隔離出去,不再處理系統中的應用請求。待故障消除後,系統進行自動化失效恢複,重新啟動服務,同步資料保證資料的一緻性。在網站遇到通路高峰,超出網站最大處理能力時,為了保證整個網站的安全可用,還會進行自動化降級,通過拒絕部分請求及關閉部分不重要的服務将系統負載降至一個安全的水準,必要時,還需要自動化配置設定資源,将空閑資源配置設定給重要的服務,擴大其部署規模。

9. 安全

    網際網路的開放特性使得其從誕生起就面對巨大的安全挑戰,網站在安全架構方面也積累了許多模式:通過密碼和手機校驗碼進行身份認證;登入、交易等操作需要對網絡通信進行加密,網站伺服器上存儲的敏感資料如使用者資訊等也進行加密處理;為了防止機器人程式濫用網絡資源攻擊網站,網站使用驗證碼進行識别;對于常見的用于攻擊網站的 XSS 攻擊、SQL 注入、進行編碼 轉換等相應處理;對于垃圾資訊、敏感資訊進行過濾;對交易轉賬等重要操作根據交易模式和交易資訊進行風險控制。

繼續閱讀