天天看點

WOT2016黃慧攀:海量日志處理可以不用Hadoop或Spark

如今,随着雲計算、移動網際網路、物聯網、大資料等技術的快速發展,企業逐漸認識到,資料的價值,對資料的挖掘分析能力已經成為企業的核心競争力。對于網際網路企業,最有價值的資料都蘊藏在網站的日志中。從日志中,我們可以知道網站的通路量,應用的使用量、使用者的相關資料,使用偏好等關鍵資訊,進而更好的改善服務品質,更好的滿足使用者的需求。

WOT2016黃慧攀:海量日志處理可以不用Hadoop或Spark

黃慧攀是2010年加入又拍雲,現任又拍雲 cto。他是 alilua web 開發架構的作者,擁有 14 年網際網路從業經驗,技術經驗涵蓋範圍比較廣,早期以前端 web 開發為主,後期逐漸轉到底層研發方向,在高性能網絡服務、分布式存儲系統等方面有較深入的研究。随着公司發展,團隊不斷擴大,相應職責細分,目前主要做技術規劃和團隊建設的工作。

那麼在資訊爆炸的時代,處理海量日志的挑戰又有哪些呢?海量日志的日志資料量非常大,大到單台伺服器無法存儲和處理的量級。目前,又拍雲現在每天收集到的通路日志就超過4tb的壓縮資料,如果解壓出來高達120tb文本資料。黃慧攀表示,處理如此龐大的資料量确實面臨很多挑戰,光收集存儲這些原始日志都會成為問題,後續的處理和統計的難度就更大了。

現在,業界在處理海量日志采用比較流行的hadoop或spark等分布式計算系統,這樣的開源技術無需考慮系統架構。黃慧攀強調,如果要針對特定的業務場景,企業自己研發日志處理系統則需要一定的經驗,比如如何規範資料,如何做資料分布處理和彙總資料等等。

本文作者:鸢玮

來源:51cto

繼續閱讀