WOT2016黃慧攀：海量日志處理可以不用Hadoop或Spark

2021-11-10 01:58:42

如今，随着雲計算、移動網際網路、物聯網、大資料等技術的快速發展，企業逐漸認識到，資料的價值，對資料的挖掘分析能力已經成為企業的核心競争力。對于網際網路企業，最有價值的資料都蘊藏在網站的日志中。從日志中，我們可以知道網站的通路量，應用的使用量、使用者的相關資料，使用偏好等關鍵資訊，進而更好的改善服務品質，更好的滿足使用者的需求。

黃慧攀是2010年加入又拍雲，現任又拍雲 cto。他是 alilua web 開發架構的作者，擁有 14 年網際網路從業經驗，技術經驗涵蓋範圍比較廣，早期以前端 web 開發為主，後期逐漸轉到底層研發方向，在高性能網絡服務、分布式存儲系統等方面有較深入的研究。随着公司發展，團隊不斷擴大，相應職責細分，目前主要做技術規劃和團隊建設的工作。

那麼在資訊爆炸的時代，處理海量日志的挑戰又有哪些呢？海量日志的日志資料量非常大，大到單台伺服器無法存儲和處理的量級。目前，又拍雲現在每天收集到的通路日志就超過4tb的壓縮資料，如果解壓出來高達120tb文本資料。黃慧攀表示，處理如此龐大的資料量确實面臨很多挑戰，光收集存儲這些原始日志都會成為問題，後續的處理和統計的難度就更大了。

現在，業界在處理海量日志采用比較流行的hadoop或spark等分布式計算系統，這樣的開源技術無需考慮系統架構。黃慧攀強調，如果要針對特定的業務場景，企業自己研發日志處理系統則需要一定的經驗，比如如何規範資料，如何做資料分布處理和彙總資料等等。

本文作者：鸢玮

來源：51cto

WOT2016黃慧攀：海量日志處理可以不用Hadoop或Spark

繼續閱讀

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

Shell程式設計——sort排序、uniq忽略重複、tr替換壓縮删除、cut指定删除字段、正規表達式元字元sort 指令uniq 指令tr 指令cut 指令正規表達式

ubuntu14.04下安裝hbse1.0.1.1

Linxu常用指令技巧彙總

httpd服務的部署、啟動、配置和簡單優化一、部署二、啟動三、配置檔案

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

User Defined Hadoop DataType

nginx 安裝錯誤資訊解決

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark