天天看點

《智能資料時代:企業大資料戰略與實戰》一3.7 速度與精度的抉擇

本節書摘來自華章出版社《智能資料時代:企業大資料戰略與實戰》一書中的第3章,第3.7節,作者 talkingdata ,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視

以往的大資料分析通常需要在性能和精度之間進行折中。造成這種情況的原因是當時的技術往往需要幾個小時或幾天的時間來運作相應的算法,分析大規模的資料集。采用了叢集處理的hadoop解決了部分的存在問題,同時其他可以增強性能的技術也已經開發完成。但是,對于大多數普通組織而言,實時的大資料分析還隻是一個夢想,這主要由于此類組織沒有足夠的預算擴充自己的存儲和處理能力,而大資料對這兩種能力則有着近乎無限的需求。

上述限制所帶來的結果就是,要想快速地獲得結果就必須縮小資料分析的範圍,這可能會導緻結果準确度的降低。而追求精度的話又不得不選擇規模更大的資料集并投入更多的處理時間。

随着技術的發展和創新,選擇的空間也在不斷擴大。目前行業正在使用記憶體中處理技術來解決速度與精度無法共存的問題。該方法的原理是将待處理的資料存入易失性存儲器而不是硬碟。如果使用普通的實體磁盤驅動器,我們需要讀寫磁盤中的所有輸入和輸出資料,與之相比在高速緩存中加載資料集并直接對其應用算法可以節省很多時間。

繼續閱讀