天天看點

海量資料,資料挖掘,資料存儲方法

現在對網絡服務來講,使用者量是非常大的,使用者資訊或者其他資料也是非常巨大的,如何對海量資料進行存儲,進行挖掘,進行篩選等問題,對伺服器的響應效率來講影響很大,關鍵要設計出良好的資料結構來存儲,有良好的算法才好 

一般提供下面幾個解決方案:

bloom filter hash bit-map heap 雙層桶劃分 資料庫索引 反向索引(inverted index) 外排序 trie樹 mapreduce

關于這些算法的詳細介紹

可以參看這篇文章,寫的很不錯

http://blog.redfox66.com/category/e6b5b7e9878fe695b0e68dae.aspx