天天看點

MapReduce核心思想

MapReduce核心思想

MapReduce核心程式設計思想 即分而治之

需求:統計其中每一個單詞出現的總次數(查詢結果:a-p一個檔案,q-z一個檔案)

MapReduce核心思想

1)分布式的運算程式往往需要分成至少2個階段

2)第一個階段的MapTask并發執行個體, 完全并行運作,互不相幹

3)第二個階段的ReduceTask 并發執行個體互不相幹,但是他們的資料依賴于上一個階段的所有MapTask并發執行個體的輸出。

4)MapReduce程式設計模型隻能包含一個Map階段和一個Reduce階段,如果使用者的業務邏輯非常複雜,那就 隻能多個MapReduce程式,串行運作。

總結:分析WordCount資料流走向深入了解MapReduce核心思想。

若幹問題細節

1)MapTask如何工作

2)ReduceTask 如何工作

3)MapTask如何控制分區、排序等

4)MapTask和ReduceTask之間如何銜接

MapReduce程序

》1:什麼是程序?

即在記憶體中運作的程式

繼續閱讀