<b>本文ppt來自技術專家毛玮于10月16日在2016年杭州雲栖大會上發表的《分布式流處理架構--功能對比和性能評估》。</b>
目前,分布式流處理架構數量不少,各有特色,究竟哪個性能更好、哪個效率更高、哪個更适合我呢?一般來說,當選擇不同的流處理系統時,我們往往需要關注以下六大方面:1.運作時和程式設計模型2.函數式原語3.狀态管理 4.消息傳輸保障 5.容錯 6.性能。
其中,運作時模型主要包括原生的流處理和微批處理。流處理意味着所有輸入的記錄一旦到達即會一個接着一個進行處理,微批處理則把輸入的資料按照某種預先定義的時間間隔分成短小的批量資料,流經流處理系統。程式設計模型一般分為組合式和聲明式。組合式程式設計提供基本的構模組化塊,它們必須緊密結合來建立拓撲,相對應地,聲明式api操作是定義的函數。
在下面的圖中我們不僅會具體介紹每個要點,而且還會列出主流的架構,如spark streaming、storm、flink、heron架構的性能對比測試結果資料。
