【資料架構解讀】基于阿裡雲數加StreamCompute和MaxCompute建構的通路日志統計分析

2021-11-07 16:49:04

【場景】

使用者搭建網站會不斷的産生通路日志(nginx,apache通路日志)。為了從通路日志中挖掘出更多價值，本文主要闡述如果利用阿裡雲數加從沉睡中的通路日志中擷取更有價值的資料，包括用于實時統計和展示網站通路的一系列名額，例如pv，uv，裝置，地理，狀态碼，爬蟲，網絡流量等名額。

【具體分析需求】

使用者想根據通路日志來實時統計和展示網站通路重要名額，需要設計到流式計算和離線計算，那麼阿裡雲數加·streamcompute更好的可以解決日志的實時計算場景，而阿裡雲數加·maxcompute則更好的來處理批量資料，适合于離線資料計算。

那麼如何來使用阿裡雲數加來建構一個高可用的數加架構兩者計算場景都可以滿足？

【日志字段】

日志格式：

$remote_addr - $remote_user [$time_local] “$request” $status $body_bytes_sent”$http_referer” “$http_user_agent” [unknown_content];

日志字段說明：

字段名稱

字段說明

$remote_addr

發送請求的用戶端ip位址

$remote_user

用戶端登入名

$time_local

伺服器本地時間

$request

請求，包括http請求類型+請求url+http協定版本号

$status

服務端傳回狀态碼

$body_bytes_sent

傳回給用戶端的位元組數（不含header）

$http_referer

該請求的來源url

$http_user_agent

發送請求的用戶端資訊，如使用的浏覽器等

真實的通路日志資料示例如下：

192.168.1.101 - - [17/mar/2016:10:28:30 +0800] "get /fonts/fontawesome-webfont.woff?v=4.2.0 http/1.1" 0.021 1207 304 0 "https://sls.console.aliyun.com/css/lib.css" "mozilla/5.0 (macintosh; intel mac os x 10_11_3) applewebkit/537.36 (khtml, like gecko) chrome/49.0.2623.87 safari/537.36"

【資料架構】

根據實時計算場景和批量計算的場景要求，筆者嘗試從如下資料架構來滿足：

如上資料架構圖，使用者可根據紅色箭線來完成實時資料處理場景，根據藍色箭線來完成離線資料處理需求。

實時處理邏輯：logstash-->datahub-->streamcompute-->analyticdb-->datav,筆者做出來的最終效果圖如下：

離線計算邏輯：logstash-->datahub（dataconnector）-->maxcompute-->大資料開發套件data ide -->quick bi.效果圖如下：

用心的使用者會發現筆者總體的架構是按照如下資料流邏輯來建構的：

筆者也會根據架構圖将詳細的操作文檔及代碼共享給大家，敬請期待！也祝願大家能夠快速的針對自己網站的通路日志建構出分析結果。

【資料架構解讀】基于阿裡雲數加StreamCompute和MaxCompute建構的通路日志統計分析

繼續閱讀

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

HDFS指令行工具

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark