海量資料分成兩塊,一是系統建設技術,二,海量資料應用。
先說系統建設,現在主流的技術是hadoop,主要基于mapreduce的分布式架構。目前可以先學習這個。但是我的觀點,在分布式系統出來之前,主要是集中式架構,如db2,oracle。為什麼現在用分布式架構,那是因為現在集中式架構受限于io性能,出來速度慢,如果又一種硬體技術,可以很快地處理海量資料,性能上能滿足需求,那麼集中式架構優于分布式架構,因為集中式架構穩定,運維壓力小。現在的集中式架構要麼性能達不到要求,要麼就是過于昂貴。我期待一種技術出現,可以非常快地傳輸和處理資料,那麼集中式架構将再次進入人們眼球。再說海量資料應用。海量資料應用主要是資料挖掘和機器算法。具體有不同的應用場景,如個性化搜尋和推薦,社交網絡發現,精準營銷,精準廣告,實時最優路徑,人工智能等等。看你想做系統支撐技術還是與業務結合的應用技術。
如果現在學系統建設技術,可以讀下如下書籍:
如果學資料挖掘和機器算法,推薦先看資料挖掘導論,統計分析原理,mahout,r,matlab
本文作者:佚名
來源:51cto