天天看點

關于分布式計算的一些概念

整理自《架構解密從分布式到微服務》第七章——聊聊分布式計算.做了相應補充和修改。

[TOC]

前言

不管是網絡、記憶體、還是存儲的分布式,它們最終目的都是為了實作計算的分布式:資料在各個計算機節點上流動,同時各個計算機節點都能以某種方式通路共享資料,最終分布式計算後的輸出結果被持久化存儲和輸出。 分布式作為分布式系統裡最重要的一個能力和目标,也是大資料系統的關技術之一。經過多年的發展與演進,目前業界已經存在很多成熟的分布式計算相關的開源程式設計架構和平台供我們選擇。

一 不得不說的Actor模型

1.1 Actor模型的誕生與發展

Carl Hewitt于1970年發明Actor模型,當時Actor模型的概念遠遠領先于那個時代,知道Erlang這樣基于Actor模型設計的面向并發程式設計的新語言橫空出世之後,Actor模型才真真火了起來。

1.2 Actor模型是什麼?

Actor是計算機科學領域中的一個并行計算模型,它把Actor當做通用的并行計算原語:一個Actor對接收到的消息做出響應,進行本地決策,可以建立更多的Actor(子Actor),或者發送更多的消息;同時準備接收下一條消息。

在Actor理論中,一切都被認為是Actor,這和面向對象語言裡一切都被看成對象很類似。但包括面向對象語言在内的軟體通常是順序執行的,而Actor模型本質上則是并發的。Actor之間僅通過發送消息進行通信,所有的操作都是異步的,不同的Actor可以同時處理各自的資訊,使整個系統獲得大規模的并發能力。

1.3 Actor模型原理簡單介紹

Actor模型簡單原理圖:

根據上圖,每個Actor都有一個Mailbox(郵箱),Actor A 發送給消息給Actor B,就好像Actor A 給Actor B寫了一封郵箱位址為Actor B的郵箱位址的郵件(消息)一樣,随後平台負責投遞郵件。當郵件Actor B之後,平台就會通知Actor B收取郵件并做出回複,如果有多封郵件,則Actor B按順序處理。很簡單和容易了解的技術,但是蘊含了強大的力量。Actor B收到消息後可能會做那些處理呢?

  • 建立其他Actor
  • 向其他Actor發送消息
  • 指定下一條消息到來的行為,比如修改自己的狀态

在什麼情況下一個Actor會建立子Actor呢?

通常情況是為了并行計算,比如我們有10G的檔案要分析處理,我們可以在根Actor裡建立10個子Actor,讓每個Actor分别處理一個檔案,為此根Actor給每個子Actor發送一個消息,消息裡包含配置設定給它的的檔案編号(或位置),當子Actor完成處理後,就把處理好的結果封裝為應答消息傳回給根Actor,然後根Actor在進行最後的彙總與輸出,下面是這個過程的示意圖。

一個Actor與其所建立的Actor形成父子關系。在實際程式設計中,父Actor應該監督其所建立的子Actor的狀态,原因是父Actor知道可能會出現那些失敗情況,知道如何處理他們,比如重新産生一個新的子Actor 來重做失敗的任務,或者某個Actor失敗後就通知其他Actor終止任務。

1.4 Actor模型的優缺點

通過上面對Actor模型原理的簡單分析,我們來總結一下Actor模型的優缺點。

優點:

1)将消息收發、線程排程、處理競争和同步的所有複雜邏輯都委托給了Actor架構本身,而且對應用來說是透明的,我們可以認為Actor隻是一個實作了Runnable接口的對象。關注多線程并發問題時,隻需要關注多個Actor之間的消息流即可。

2)符合Actor模型的程式很容易進行測試,因為任意一個Actor都可以被單獨進行單元測試。如果測試案例覆寫了該Actor所能響應的所有類型的消息,我們就可以确定該Actor的代碼十分可靠。

缺點:

1) Actor完全避免共享并且僅通過消息來進行交流,使得程式失去了精細化并發調控能力,是以不适合實施細粒度的并行且可能導緻系統響應時延的增加。如果在Actor程式中引入一些并行架構,就可能會導緻系統的不确定性。

2)盡管使用Actor模型的程式 比使用線程和鎖模型的程式更容易調試,Actor模型仍會碰到死鎖這一類的共性問題,也會碰到一些Actor模型獨有的問題(例如信箱移溢出)。

二 初始AKKA

2.1 AKKA簡介

Akka 是一個用 Scala 編寫的庫,用于簡化編寫容錯的、高可伸縮性的 Java 和 Scala 的 Actor 模型應用。它已經成功運用在電信行業。系統幾乎不會當機(高可用性 99.9999999 % 一年隻有 31 ms 當機)。

Akka雖然是Scala寫成的,但是由于Scala最終還是編譯為Java位元組碼運作在JVM上,是以我們可以認為Akka屬于Java領域。

Akka處理并發的方法基于Actor模型。在Akka裡,Actor之間通信的唯一機制就是消息傳遞。

Akka官方宣傳是這樣介紹Akka的:

  • 是對并發、并行程式的簡單的進階别的抽象
  • 是異步、非阻塞、高性能的事件驅動程式設計模型
  • 是非常輕量級的事件驅動處理(1GB記憶體可容納約270萬個actors)

2.2 為什麼要用Akka?

Akka是一個運作時與程式設計模型一緻的系統,為以下目标設計:

  • 垂直擴充(并發)
  • 水準擴充(遠端調用)
  • 高容錯

使用Akka帶來的好處:

  • AKKA提供一種Actor并發模型,其粒度比線程小很多,這意味着你可以在項目中使用大量的Actor。
  • Akka提供了一套容錯機制,允許在Actor出錯時進行一些恢複或者重置操作
  • AKKA不僅可以在單機上建構高并發程式,也可以在網絡中建構分布式程式,并提供位置透明的Actor定位服務

三 使用面很廣的Storm

與前面提到的Actor面向消息的分布式計算式模型不同,Apache Storm提供的是面向連續的消息流(Stream)的一種通用的分布式計算解決架構。

2.1 Storm簡介

Apache Storm是一種側重于極低延遲的流處理架構,也是要求近實時處理的工作負載的最佳選擇。該技術可處理非常大量的資料,通過比其他解決方案更低的延遲提供結果。

Storm作為實時流式計算中的佼佼者,因其良好的特性使其使用場景非常廣泛。

Zookeeper作為分布式協調服務架構,因其完善的資料一緻性保證特性使其成為各架構必備元件。

2.2 Storm的應用場景

1)日志處理: 監控系統中的事件日志,使用 Storm 檢查每條日志資訊,把符合比對規則的消息儲存到資料庫。

2)電商商品推薦: 背景需要維護每個使用者的興趣點,主要基于使用者的曆史行為、查詢、點選、地理資訊等資訊獲得,其中有很多實時資料,可以使用 Storm 進行處理,在此基礎上進行精準的商品推薦和放置廣告。

2.3 Storm與Hadoop的關系

Hadoop 是強大的大資料處理系統,但是在實時計算方面不夠擅長;Storm的核心功能就是提供強大的實時處理能力,但沒有涉及存儲;是以 Storm 與 Hadoop 即不同也互補。

Storm與Hadoop應用場景對比:

Storm: 分布式實時計算,強調實時性,常用于實時性要求較高的地方

Hadoop:分布式批處理計算,強調批處理,常用于對已經在的大量資料挖掘、分析

三 MapReduce及其引發的新世界

3.1 MapReduce簡單介紹

與前面介紹的Actor模型一樣,MapReduce本質上也是一種很古老的并行計算模型,它的名字起源于LISP類函數式語言裡的map和reduce操作。MapReduce的計算模型非常簡單,它的思想就是“分而治之”,Mapper負責“分”,即把複雜的大任務分解為若幹個小任務來處理,彼此之間沒有依賴關系,以便可以分布到多個計算節點上實作高度的并行計算能力;Reducer則負責對map階段的結果進行彙總和輸出。

我們通過一個最簡單的統計詞頻的案例看一下,MapReduce的簡單原理:

3.2 MapReduce與Spark以及Storm孰優孰劣

Hadoop傳統意義上就是離線資料處理平台。但是2.0之後就不一樣了,因為多了yarn資料總管(可能是收到了分布式資源排程系統Mesos的啟發),Spark和Storm都可以搭建在Hadoop之上,用yarn進行排程。這是大資料進行中目前最流行的三個計算架構。

Mapreduce: 适用于離線計算。這個架構充分利用了磁盤,處處存在着排序和合并。是以适合于實時性不高的離線計算。

Spark: 相對于Hadoop的MapReduce會在運作完工作後将中介資料存放到磁盤中,Spark使用了存儲器内運算技術,能在資料尚未寫入硬碟時即在存儲器内分析運算。Spark在存儲器内運作程式的運算速度能做到比Hadoop MapReduce的運算速度快上100倍,即便是運作程式于硬碟時,Spark也能快上10倍速度。Spark允許使用者将資料加載至叢集存儲器,并多次對其進行查詢,非常适合用于機器學習算法。

Storm: 一種側重于極低延遲的流處理架構,也是要求近實時處理的工作負載的最佳選擇。該技術可處理非常大量的資料,通過比其他解決方案更低的延遲提供結果。

關于三者的一些概括總結

Hadoop: 離線分析架構,适合離線的複雜的大資料處理

Spark:記憶體計算架構,适合線上、離線快速的大資料處理

Storm: 流式計算架構,适合線上的實時的大資料處理

我是Snailclimb,一個以架構師為5年之内目标的小小白。 歡迎關注我的微信公衆号:"Java面試通關手冊"(一個有溫度的微信公衆号,期待與你共同進步~~~堅持原創,分享美文,分享各種Java學習資源)

最後,就是使用阿裡雲伺服器一段時間後,感覺阿裡雲真的很不錯,就申請做了阿裡雲大使,然後這是

我的優惠券位址

.

繼續閱讀