天天看點

大資料

大資料首次是在1998rh usenix大會上由johnr.masey提出的。

一、什麼是大資料?

大資料不是特指hadoop,它是一系列技術的集合,而hadoop隻是其中一種具體處理資料的架構技術。

二、資料分類

(1)結構化資料:結構固定,每個字段有固定的語義和長度,計算機程式可以直接處理

(2)非結構化資料:計算機程式無法直接處理,需要先對資料進行格式轉換或資訊提取。

注意:半結構化資料

三、如何擷取資料

1、按探針位置進行分類,探針可以分類:

(1)内置探針:探針裝置和已有網絡裝置部署在同一個機框内,直接擷取資料。

(2)外置探針:無法改變原有網絡,需要額外部署探針

2、探針能力

(1)探針裝置的高容量、高度內建

(2)流量解析(網絡資料解析),流量資料解析(協定識别)常用方法

1)端口檢測技術:根據tcp/udp的端口來識别應用。比如dns協定預設采用53端口、windows遠端調用采用135端口。

2)spi檢測技術:對ip包的5元組進行分析。5元組分别為源位址、源端口、目的位址、目的端口、協定類型

3)協定智能識别技術

(3)轉發能力(對網絡要求高)

3、網頁采集(網絡爬蟲)

網絡爬蟲是搜尋引擎抓取系統的重要組成部分。爬蟲的主要目的是将網際網路上的網頁下載下傳到本地,形式一個或聯網内容的鏡像備份。

(1)從爬蟲角度對網際網路進行分類

1)已下載下傳未過期見多頁

2)已下載下傳已過期網頁:抓取的網嶚已過期

3)待下載下傳網頁:待抓取url隊列中的那些頁面

4)可知網頁:可以通過已抓取頁面或待抓取url對應頁面進行分析擷取到url;

5)不可知網頁:無法通過爬蟲直接抓取下載下傳的。

(2)抓取url政策:待抓取url隊列中url排列序列決定了先要抓取哪個頁,後抓取哪個頁面。

1)深度優先周遊政策

從起始頁開始,一個連結一個連結地跟蹤下去,處理完這條線絡之後再轉入下一個超台頁,繼續跟蹤連結。

2)橫向優先搜尋政策

首先抓取超始網頁中連結的所有網頁,然後再選擇其中一個連結網頁,繼續抓取此網頁中連結的所有網頁。

3)反向連結數政策

反向連結數表示一個網頁的内容受其他人推薦的程度。

反向連結數指一個網頁被其他網頁連結指向的數量。

4)partialpagerank政策

5)opic曆政策

6)大站優先政策

将待抓取url隊列中的所有網頁按所屬的網站進行分類,待下載下傳頁面數多的網站則優先下載下傳。

(3)更新政策:決定什麼時候更新已下載下傳的頁面。

1)曆史參考政策

根據頁面以往的曆史更新資料,一般通過蔔瓦松過程進行模組化預測頁面未來何時會發生變化。

2)使用者體驗政策

保留網頁的多個曆史版本,根據過去每次的内容變化對搜尋品質影響得出一個平均值,該值決定什麼時候重新抓取資料。

3)叢集抽樣政策

注意:1)和2)都需用到曆史資訊,仍會存在以下問題:

第一點,系統保留每個網頁的多個曆史版本資訊,則會增加系統負但;

第二點,如果是新的網頁,新網頁沒有曆史記錄,則無法确定更新政策。

4、日志收集

任何生産系統在運作過程中都會大量日志,且日志存儲一段時間後會被自動清理,如何收集各生産系統的日志資訊并對其進行分析。常用元件flume(日志收集系統)+zookeepper、kafka+zookeepper(将前端采集的資訊轉發至後端,保證資訊的可靠性、實時性)

三、流處理

1、流資料:随時間延續無限增長動态資料集合。

2、大資料處理按處理時間跨度次元分為以下幾類:

(1)基于實時資料流的資料處理:數百毫秒到數秒之間

(2)基于曆史資料的互動式查詢:數十秒到數分鐘之間

(3)複雜的批量資料處理:幾分鐘到數小時之間

繼續閱讀