天天看點

五種大資料處理架構

大資料是收集、整理、處理大容量資料集,并從中獲得見解所需的非傳統戰略和技術的總稱。雖然處理資料所需的計算能力或存儲容量早已超過一台計算機的上限,但這種計算類型的普遍性、規模,以及價值在最近幾年才經曆了大規模擴充。

本文将介紹大資料系統一個最基本的元件:處理架構。處理架構負責對系統中的資料進行計算,例如處理從非易失存儲中讀取的資料,或處理剛剛攝入到系統中的資料。資料的計算則是指從大量單一資料點中提取資訊和見解的過程。

下文将介紹這些架構:

· 僅批處理架構:

Apache Hadoop

· 僅流處理架構:

Apache Storm

Apache Samza

· 混合架構:

Apache Spark

Apache Flink

大資料處理架構是什麼?

處理架構和處理引擎負責對資料系統中的資料進行計算。雖然“引擎”和“架構”之間的差別沒有什麼權威的定義,但大部分時候可以将前者定義為實際負責處理資料操作的元件,後者則可定義為承擔類似作用的一系列元件。

例如Apache Hadoop可以看作一種以MapReduce作為預設處理引擎的處理架構。引擎和架構通常可以互相替換或同時使用。例如另一個架構Apache Spark可以納入Hadoop并取代MapReduce。元件之間的這種互操作性是大資料系統靈活性如此之高的原因之一。

雖然負責處理生命周期内這一階段資料的系統通常都很複雜,但從廣義層面來看它們的目标是非常一緻的:通過對資料執行操作提高了解能力,揭示出資料蘊含的模式,并針對複雜互動獲得見解。

為了簡化這些元件的讨論,我們會通過不同處理架構的設計意圖,按照所處理的資料狀态對其進行分類。一些系統可以用批處理方式處理資料,一些系統可以用流方式處理連續不斷流入系統的資料。此外還有一些系統可以同時處理這兩類資料。

在深入介紹不同實作的名額和結論之前,首先需要對不同處理類型的概念進行一個簡單的介紹。

批處理系統

批處理在大資料世界有着悠久的曆史。批處理主要操作大容量靜态資料集,并在計算過程完成後傳回結果。

批處理模式中使用的資料集通常符合下列特征…

· 有界:批處理資料集代表資料的有限集合

· 持久:資料通常始終存儲在某種類型的持久存儲位置中

· 大量:批處理操作通常是處理極為海量資料集的唯一方法

批處理非常适合需要通路全套記錄才能完成的計算工作。例如在計算總數和平均數時,必須将資料集作為一個整體加以處理,而不能将其視作多條記錄的集合。這些操作要求在計算進行過程中資料維持自己的狀态。

需要處理大量資料的任務通常最适合用批處理操作進行處理。無論直接從持久儲存設備處理資料集,或首先将資料集載入記憶體,批處理系統在設計過程中就充分考慮了資料的量,可提供充足的處理資源。由于批處理在應對大量持久資料方面的表現極為出色,是以經常被用于對曆史資料進行分析。

大量資料的處理需要付出大量時間,是以批處理不适合對處理時間要求較高的場合。

Apache Hadoop

Apache Hadoop是一種專用于批處理的處理架構。Hadoop是首個在開源社群獲得極大關注的大資料架構。基于谷歌有關海量資料處理所發表的多篇論文與經驗的Hadoop重新實作了相關算法群組件堆棧,讓大規模批處理技術變得更易用。

新版Hadoop包含多個元件,即多個層,通過配合使用可處理批資料:

· HDFS:HDFS是一種分布式檔案系統層,可對叢集節點間的存儲和複制進行協調。HDFS確定了無法避免的節點故障發生後資料依然可用,可将其用作資料來源,可用于存儲中間态的處理結果,并可存儲計算的最終結果。

· YARN:YARN是Yet Another Resource Negotiator(另一個資料總管)的縮寫,可充當Hadoop堆棧的叢集協調元件。該元件負責協調并管理底層資源和排程作業的運作。通過充當叢集資源的接口,YARN使得使用者能在Hadoop叢集中使用比以往的疊代方式運作更多類型的工作負載。

· MapReduce:MapReduce是Hadoop的原生批處理引擎。

批處理模式

Hadoop的處理功能來自MapReduce引擎。MapReduce的處理技術符合使用鍵值對的map、shuffle、reduce算法要求。基本處理過程包括:

· 從HDFS檔案系統讀取資料集

· 将資料集拆分成小塊并配置設定給所有可用節點

· 針對每個節點上的資料子集進行計算(計算的中間态結果會重新寫入HDFS)

· 重新配置設定中間态結果并按照鍵進行分組

· 通過對每個節點計算的結果進行彙總群組合對每個鍵的值進行“Reducing”

· 将計算而來的最終結果重新寫入 HDFS

優勢和局限

由于這種方法嚴重依賴持久存儲,每個任務需要多次執行讀取和寫入操作,是以速度相對較慢。但另一方面由于磁盤空間通常是伺服器上最豐富的資源,這意味着MapReduce可以處理非常海量的資料集。同時也意味着相比其他類似技術,Hadoop的MapReduce通常可以在廉價硬體上運作,因為該技術并不需要将一切都存儲在記憶體中。MapReduce具備極高的縮放潛力,生産環境中曾經出現過包含數萬個節點的應用。

MapReduce的學習曲線較為陡峭,雖然Hadoop生态系統的其他周邊技術可以大幅降低這一問題的影響,但通過Hadoop叢集快速實作某些應用時依然需要注意這個問題。

圍繞Hadoop已經形成了遼闊的生态系統,Hadoop叢集本身也經常被用作其他軟體的組成部件。很多其他處理架構和引擎通過與Hadoop內建也可以使用HDFS和YARN資料總管。

總結

Apache Hadoop及其MapReduce處理引擎提供了一套久經考驗的批處理模型,最适合處理對時間要求不高的非常大規模資料集。通過非常低成本的元件即可搭建完整功能的Hadoop叢集,使得這一廉價且高效的處理技術可以靈活應用在很多案例中。與其他架構和引擎的相容與內建能力使得Hadoop可以成為使用不同技術的多種工作負載處理平台的底層基礎。

流處理系統

流處理系統會對随時進入系統的資料進行計算。相比批處理模式,這是一種截然不同的處理方式。流處理方式無需針對整個資料集執行操作,而是對通過系統傳輸的每個資料項執行操作。

· 流進行中的資料集是“無邊界”的,這就産生了幾個重要的影響:

· 完整資料集隻能代表截至目前已經進入到系統中的資料總量。

· 工作資料集也許更相關,在特定時間隻能代表某個單一資料項。

處理工作是基于事件的,除非明确停止否則沒有“盡頭”。處理結果立刻可用,并會随着新資料的抵達繼續更新。

流處理系統可以處理幾乎無限量的資料,但同一時間隻能處理一條(真正的流處理)或很少量(微批處理,Micro-batch Processing)資料,不同記錄間隻維持最少量的狀态。雖然大部分系統提供了用于維持某些狀态的方法,但流處理主要針對副作用更少,更加功能性的處理(Functional processing)進行優化。

功能性操作主要側重于狀态或副作用有限的離散步驟。針對同一個資料執行同一個操作會或略其他因素産生相同的結果,此類處理非常适合流處理,因為不同項的狀态通常是某些困難、限制,以及某些情況下不需要的結果的結合體。是以雖然某些類型的狀态管理通常是可行的,但這些架構通常在不具備狀态管理機制時更簡單也更高效。

此類處理非常适合某些類型的工作負載。有近實時處理需求的任務很适合使用流處理模式。分析、伺服器或應用程式錯誤日志,以及其他基于時間的衡量名額是最适合的類型,因為對這些領域的資料變化做出響應對于業務職能來說是極為關鍵的。流處理很适合用來處理必須對變動或峰值做出響應,并且關注一段時間内變化趨勢的資料。

Apache Storm

Apache Storm是一種側重于極低延遲的流處理架構,也許是要求近實時處理的工作負載的最佳選擇。該技術可處理非常大量的資料,通過比其他解決方案更低的延遲提供結果。

流處理模式

Storm的流處理可對架構中名為Topology(拓撲)的DAG(Directed Acyclic Graph,有向無環圖)進行編排。這些拓撲描述了當資料片段進入系統後,需要對每個傳入的片段執行的不同轉換或步驟。

拓撲包含:

· Stream:普通的資料流,這是一種會持續抵達系統的無邊界資料。

· Spout:位于拓撲邊緣的資料流來源,例如可以是API或查詢等,從這裡可以産生待處理的資料。

· Bolt:Bolt代表需要消耗流資料,對其應用操作,并将結果以流的形式進行輸出的處理步驟。Bolt需要與每個Spout建立連接配接,随後互相連接配接以組成所有必要的處理。在拓撲的尾部,可以使用最終的Bolt輸出作為互相連接配接的其他系統的輸入。

Storm背後的想法是使用上述元件定義大量小型的離散操作,随後将多個元件組成所需拓撲。預設情況下Storm提供了“至少一次”的處理保證,這意味着可以確定每條消息至少可以被處理一次,但某些情況下如果遇到失敗可能會處理多次。Storm無法確定可以按照特定順序處理消息。

為了實作嚴格的一次處理,即有狀态處理,可以使用一種名為Trident的抽象。嚴格來說不使用Trident的Storm通常可稱之為Core Storm。Trident會對Storm的處理能力産生極大影響,會增加延遲,為處理提供狀态,使用微批模式代替逐項處理的純粹流處理模式。

為避免這些問題,通常建議Storm使用者盡可能使用Core Storm。然而也要注意,Trident對内容嚴格的一次處理保證在某些情況下也比較有用,例如系統無法智能地處理重複消息時。如果需要在項之間維持狀态,例如想要計算一個小時内有多少使用者點選了某個連結,此時Trident将是你唯一的選擇。盡管不能充分發揮架構與生俱來的優勢,但Trident提高了Storm的靈活性。

Trident拓撲包含:

· 流批(Stream batch):這是指流資料的微批,可通過分塊提供批處理語義。

· 操作(Operation):是指可以對資料執行的批處理過程。

優勢和局限

目前來說Storm可能是近實時處理領域的最佳解決方案。該技術可以用極低延遲處理資料,可用于希望獲得最低延遲的工作負載。如果處理速度直接影響使用者體驗,例如需要将處理結果直接提供給訪客打開的網站頁面,此時Storm将會是一個很好的選擇。

Storm與Trident配合使得使用者可以用微批代替純粹的流處理。雖然借此使用者可以獲得更大靈活性打造更符合要求的工具,但同時這種做法會削弱該技術相比其他解決方案最大的優勢。話雖如此,但多一種流處理方式總是好的。

Core Storm無法保證消息的處理順序。Core Storm為消息提供了“至少一次”的處理保證,這意味着可以保證每條消息都能被處理,但也可能發生重複。Trident提供了嚴格的一次處理保證,可以在不同批之間提供順序處理,但無法在一個批内部實作順序處理。

在互操作性方面,Storm可與Hadoop的YARN資料總管進行內建,是以可以很友善地融入現有Hadoop部署。除了支援大部分處理架構,Storm還可支援多種語言,為使用者的拓撲定義提供了更多選擇。

總結

對于延遲需求很高的純粹的流處理工作負載,Storm可能是最适合的技術。該技術可以保證每條消息都被處理,可配合多種程式設計語言使用。由于Storm無法進行批處理,如果需要這些能力可能還需要使用其他軟體。如果對嚴格的一次處理保證有比較高的要求,此時可考慮使用Trident。不過這種情況下其他流處理架構也許更适合。

Apache Samza

Apache Samza是一種與Apache Kafka消息系統緊密綁定的流處理架構。雖然Kafka可用于很多流處理系統,但按照設計,Samza可以更好地發揮Kafka獨特的架構優勢和保障。該技術可通過Kafka提供容錯、緩沖,以及狀态存儲。

Samza可使用YARN作為資料總管。這意味着預設情況下需要具備Hadoop叢集(至少具備HDFS和YARN),但同時也意味着Samza可以直接使用YARN豐富的内建功能。

流處理模式

Samza依賴Kafka的語義定義流的處理方式。Kafka在處理資料時涉及下列概念:

· Topic(話題):進入Kafka系統的每個資料流可稱之為一個話題。話題基本上是一種可供消耗方訂閱的,由相關資訊組成的資料流。

· Partition(分區):為了将一個話題分散至多個節點,Kafka會将傳入的消息劃分為多個分區。分區的劃分将基于鍵(Key)進行,這樣可以保證包含同一個鍵的每條消息可以劃分至同一個分區。分區的順序可獲得保證。

· Broker(代理):組成Kafka叢集的每個節點也叫做代理。

· Producer(生成方):任何向Kafka話題寫入資料的元件可以叫做生成方。生成方可提供将話題劃分為分區所需的鍵。

· Consumer(消耗方):任何從Kafka讀取話題的元件可叫做消耗方。消耗方需要負責維持有關自己分支的資訊,這樣即可在失敗後知道哪些記錄已經被處理過了。

由于Kafka相當于永恒不變的日志,Samza也需要處理永恒不變的資料流。這意味着任何轉換建立的新資料流都可被其他元件所使用,而不會對最初的資料流産生影響。

優勢和局限

乍看之下,Samza對Kafka類查詢系統的依賴似乎是一種限制,然而這也可以為系統提供一些獨特的保證和功能,這些内容也是其他流處理系統不具備的。

例如Kafka已經提供了可以通過低延遲方式通路的資料存儲副本,此外還可以為每個資料分區提供非常易用且低成本的多訂閱者模型。所有輸出内容,包括中間态的結果都可寫入到Kafka,并可被下遊步驟獨立使用。

這種對Kafka的緊密依賴在很多方面類似于MapReduce引擎對HDFS的依賴。雖然在批處理的每個計算之間對HDFS的依賴導緻了一些嚴重的性能問題,但也避免了流處理遇到的很多其他問題。

Samza與Kafka之間緊密的關系使得處理步驟本身可以非常松散地耦合在一起。無需事先協調,即可在輸出的任何步驟中增加任意數量的訂閱者,對于有多個團隊需要通路類似資料的組織,這一特性非常有用。多個團隊可以全部訂閱進入系統的資料話題,或任意訂閱其他團隊對資料進行過某些處理後建立的話題。這一切并不會對資料庫等負載密集型基礎架構造成額外的壓力。

直接寫入Kafka還可避免回壓(Backpressure)問題。回壓是指當負載峰值導緻資料流入速度超過元件實時處理能力的情況,這種情況可能導緻處理工作停頓并可能丢失資料。按照設計,Kafka可以将資料儲存很長時間,這意味着元件可以在友善的時候繼續進行處理,并可直接重新開機動而無需擔心造成任何後果。

Samza可以使用以本地鍵值存儲方式實作的容錯檢查點系統存儲資料。這樣Samza即可獲得“至少一次”的傳遞保障,但面對由于資料可能多次傳遞造成的失敗,該技術無法對彙總後狀态(例如計數)提供精确恢複。

Samza提供的進階抽象使其在很多方面比Storm等系統提供的基元(Primitive)更易于配合使用。目前Samza隻支援JVM語言,這意味着它在語言支援方面不如Storm靈活。

總結

對于已經具備或易于實作Hadoop和Kafka的環境,Apache Samza是流處理工作負載一個很好的選擇。Samza本身很适合有多個團隊需要使用(但互相之間并不一定緊密協調)不同處理階段的多個資料流的組織。Samza可大幅簡化很多流處理工作,可實作低延遲的性能。如果部署需求與目前系統不相容,也許并不适合使用,但如果需要極低延遲的處理,或對嚴格的一次處理語義有較高需求,此時依然适合考慮。

混合處理系統:批處理和流處理

一些處理架構可同時處理批處理和流處理工作負載。這些架構可以用相同或相關的元件和API處理兩種類型的資料,借此讓不同的處理需求得以簡化。

如你所見,這一特性主要是由Spark和Flink實作的,下文将介紹這兩種架構。實作這樣的功能重點在于兩種不同處理模式如何進行統一,以及要對固定和不固定資料集之間的關系進行何種假設。

雖然側重于某一種處理類型的項目會更好地滿足具體用例的要求,但混合架構意在提供一種資料處理的通用解決方案。這種架構不僅可以提供處理資料所需的方法,而且提供了自己的內建項、庫、工具,可勝任圖形分析、機器學習、互動式查詢等多種任務。

Apache Spark

Apache Spark是一種包含流處理能力的下一代批處理架構。與Hadoop的MapReduce引擎基于各種相同原則開發而來的Spark主要側重于通過完善的記憶體計算和處理優化機制加快批處理工作負載的運作速度。

Spark可作為獨立叢集部署(需要相應存儲層的配合),或可與Hadoop內建并取代MapReduce引擎。

批處理模式

與MapReduce不同,Spark的資料處理工作全部在記憶體中進行,隻在一開始将資料讀入記憶體,以及将最終結果持久存儲時需要與存儲層互動。所有中間态的處理結果均存儲在記憶體中。

雖然記憶體中處理方式可大幅改善性能,Spark在處理與磁盤有關的任務時速度也有很大提升,因為通過提前對整個任務集進行分析可以實作更完善的整體式優化。為此Spark可建立代表所需執行的全部操作,需要操作的資料,以及操作和資料之間關系的Directed Acyclic Graph(有向無環圖),即DAG,借此處理器可以對任務進行更智能的協調。

為了實作記憶體中批計算,Spark會使用一種名為Resilient Distributed Dataset(彈性分布式資料集),即RDD的模型來處理資料。這是一種代表資料集,隻位于記憶體中,永恒不變的結構。針對RDD執行的操作可生成新的RDD。每個RDD可通過世系(Lineage)回溯至父級RDD,并最終回溯至磁盤上的資料。Spark可通過RDD在無需将每個操作的結果寫回磁盤的前提下實作容錯。

流處理模式

流處理能力是由Spark Streaming實作的。Spark本身在設計上主要面向批處理工作負載,為了彌補引擎設計和流處理工作負載特征方面的差異,Spark實作了一種叫做微批(Micro-batch)*的概念。在具體政策方面該技術可以将資料流視作一系列非常小的“批”,借此即可通過批處理引擎的原生語義進行處理。

Spark Streaming會以亞秒級增量對流進行緩沖,随後這些緩沖會作為小規模的固定資料集進行批處理。這種方式的實際效果非常好,但相比真正的流處理架構在性能方面依然存在不足。

優勢和局限

使用Spark而非Hadoop MapReduce的主要原因是速度。在記憶體計算政策和先進的DAG排程等機制的幫助下,Spark可以用更快速度處理相同的資料集。

Spark的另一個重要優勢在于多樣性。該産品可作為獨立叢集部署,或與現有Hadoop叢集內建。該産品可運作批處理和流處理,運作一個叢集即可處理不同類型的任務。

除了引擎自身的能力外,圍繞Spark還建立了包含各種庫的生态系統,可為機器學習、互動式查詢等任務提供更好的支援。相比MapReduce,Spark任務更是“衆所周知”地易于編寫,是以可大幅提高生産力。

為流處理系統采用批處理的方法,需要對進入系統的資料進行緩沖。緩沖機制使得該技術可以處理非常大量的傳入資料,提高整體吞吐率,但等待緩沖區清空也會導緻延遲增高。這意味着Spark Streaming可能不适合處理對延遲有較高要求的工作負載。

由于記憶體通常比磁盤空間更貴,是以相比基于磁盤的系統,Spark成本更高。然而處理速度的提升意味着可以更快速完成任務,在需要按照小時數為資源付費的環境中,這一特性通常可以抵消增加的成本。

Spark記憶體計算這一設計的另一個後果是,如果部署在共享的叢集中可能會遇到資源不足的問題。相比Hadoop MapReduce,Spark的資源消耗更大,可能會對需要在同一時間使用叢集的其他任務産生影響。從本質來看,Spark更不适合與Hadoop堆棧的其他元件共存一處。

總結

Spark是多樣化工作負載處理任務的最佳選擇。Spark批處理能力以更高記憶體占用為代價提供了無與倫比的速度優勢。對于重視吞吐率而非延遲的工作負載,則比較适合使用Spark Streaming作為流處了解決方案。

Apache Flink

Apache Flink是一種可以處理批處理任務的流處理架構。該技術可将批處理資料視作具備有限邊界的資料流,借此将批處理任務作為流處理的子集加以處理。為所有處理任務采取流處理為先的方法會産生一系列有趣的副作用。

這種流處理為先的方法也叫做Kappa架構,與之相對的是更加被廣為人知的Lambda架構(該架構中使用批處理作為主要處理方法,使用流作為補充并提供早期未經提煉的結果)。Kappa架構中會對一切進行流處理,借此對模型進行簡化,而這一切是在最近流處理引擎逐漸成熟後才可行的。

流處理模型

Flink的流處理模型在處理傳入資料時會将每一項視作真正的資料流。Flink提供的DataStream API可用于處理無盡的資料流。Flink可配合使用的基本元件包括:

· Stream(流)是指在系統中流轉的,永恒不變的無邊界資料集

· Operator(操作方)是指針對資料流執行操作以産生其他資料流的功能

· Source(源)是指資料流進入系統的入口點

· Sink(槽)是指資料流離開Flink系統後進入到的位置,槽可以是資料庫或到其他系統的連接配接器

為了在計算過程中遇到問題後能夠恢複,流處理任務會在預定時間點建立快照。為了實作狀态存儲,Flink可配合多種狀态後端系統使用,具體取決于所需實作的複雜度和持久性級别。

此外Flink的流處理能力還可以了解“事件時間”這一概念,這是指事件實際發生的時間,此外該功能還可以處理會話。這意味着可以通過某種有趣的方式確定執行順序和分組。

批處理模型

Flink的批處理模型在很大程度上僅僅是對流處理模型的擴充。此時模型不再從持續流中讀取資料,而是從持久存儲中以流的形式讀取有邊界的資料集。Flink會對這些處理模型使用完全相同的運作時。

Flink可以對批處理工作負載實作一定的優化。例如由于批處理操作可通過持久存儲加以支援,Flink可以不對批處理工作負載建立快照。資料依然可以恢複,但正常處理操作可以執行得更快。

另一個優化是對批處理任務進行分解,這樣即可在需要的時候調用不同階段群組件。借此Flink可以與叢集的其他使用者更好地共存。對任務提前進行分析使得Flink可以檢視需要執行的所有操作、資料集的大小,以及下遊需要執行的操作步驟,借此實作進一步的優化。

優勢和局限

Flink目前是處理架構領域一個獨特的技術。雖然Spark也可以執行批處理和流處理,但Spark的流處理采取的微批架構使其無法适用于很多用例。Flink流處理為先的方法可提供低延遲,高吞吐率,近乎逐項處理的能力。

Flink的很多元件是自行管理的。雖然這種做法較為罕見,但出于性能方面的原因,該技術可自行管理記憶體,無需依賴原生的Java垃圾回收機制。與Spark不同,待處理資料的特征發生變化後Flink無需手工優化和調整,并且該技術也可以自行處理資料分區和自動緩存等操作。

Flink會通過多種方式對工作進行分許進而優化任務。這種分析在部分程度上類似于SQL查詢規劃器對關系型資料庫所做的優化,可針對特定任務确定最高效的實作方法。該技術還支援多階段并行執行,同時可将受阻任務的資料集合在一起。對于疊代式任務,出于性能方面的考慮,Flink會嘗試在存儲資料的節點上執行相應的計算任務。此外還可進行“增量疊代”,或僅對資料中有改動的部分進行疊代。

在使用者工具方面,Flink提供了基于Web的排程視圖,借此可輕松管理任務并檢視系統狀态。使用者也可以檢視已送出任務的優化方案,借此了解任務最終是如何在叢集中實作的。對于分析類任務,Flink提供了類似SQL的查詢,圖形化處理,以及機器學習庫,此外還支援記憶體計算。

Flink能很好地與其他元件配合使用。如果配合Hadoop 堆棧使用,該技術可以很好地融入整個環境,在任何時候都隻占用必要的資源。該技術可輕松地與YARN、HDFS和Kafka 內建。在相容包的幫助下,Flink還可以運作為其他處理架構,例如Hadoop和Storm編寫的任務。

目前Flink最大的局限之一在于這依然是一個非常“年幼”的項目。現實環境中該項目的大規模部署尚不如其他處理架構那麼常見,對于Flink在縮放能力方面的局限目前也沒有較為深入的研究。随着快速開發周期的推進和相容包等功能的完善,當越來越多的組織開始嘗試時,可能會出現越來越多的Flink部署。

總結

Flink提供了低延遲流處理,同時可支援傳統的批處理任務。Flink也許最适合有極高流處理需求,并有少量批處理任務的組織。該技術可相容原生Storm和Hadoop程式,可在YARN管理的叢集上運作,是以可以很友善地進行評估。快速進展的開發工作使其值得被大家關注。

結論

大資料系統可使用多種處理技術。

對于僅需要批處理的工作負載,如果對時間不敏感,比其他解決方案實作成本更低的Hadoop将會是一個好選擇。

對于僅需要流處理的工作負載,Storm可支援更廣泛的語言并實作極低延遲的處理,但預設配置可能産生重複結果并且無法保證順序。Samza與YARN和Kafka緊密內建可提供更大靈活性,更易用的多團隊使用,以及更簡單的複制和狀态管理。

對于混合型工作負載,Spark可提供高速批處理和微批處理模式的流處理。該技術的支援更完善,具備各種內建庫和工具,可實作靈活的內建。Flink提供了真正的流處理并具備批處理能力,通過深度優化可運作針對其他平台編寫的任務,提供低延遲的處理,但實際應用方面還為時過早。

最适合的解決方案主要取決于待處理資料的狀态,對處理所需時間的需求,以及希望得到的結果。具體是使用全功能解決方案或主要側重于某種項目的解決方案,這個問題需要慎重權衡。随着逐漸成熟并被廣泛接受,在評估任何新出現的創新型解決方案時都需要考慮類似的問題。

繼續閱讀