天天看點

應用Splunk進行大規模、非結構性資料的檢索和分析

MapReduce 是 2004年由Google開發的分散式資料處理模型。MapReduce 的基本設計理念是把 問題分成兩個部分:1)将源資料轉換成充分統計資料的映射函數;2)将所有充分統計資料合并為最終答 案的化簡函數。通過定義,所有并行映射函數可同時運作且不會互相影響。一旦使用映射函數運算所有數 據,就可結合映射階段的結果進行化簡函數運算。對于網頁搜尋分析方案中常見的大規模批量處理和高速資料檢索,MapReduce 能夠提供最快速、最 節省且最大規模的資料傳回程式。當今,大部分“大規模資料”先進管理技術是基于MapReduce研發的。

繼續閱讀