大資料首次是在1998rh usenix大會上由johnr.masey提出的。
一、什麼是大資料?
大資料不是特指hadoop,它是一系列技術的集合,而hadoop隻是其中一種具體處理資料的架構技術。
二、資料分類
(1)結構化資料:結構固定,每個字段有固定的語義和長度,計算機程式可以直接處理
(2)非結構化資料:計算機程式無法直接處理,需要先對資料進行格式轉換或資訊提取。
注意:半結構化資料
三、如何擷取資料
1、按探針位置進行分類,探針可以分類:
(1)内置探針:探針裝置和已有網絡裝置部署在同一個機框内,直接擷取資料。
(2)外置探針:無法改變原有網絡,需要額外部署探針
2、探針能力
(1)探針裝置的高容量、高度內建
(2)流量解析(網絡資料解析),流量資料解析(協定識别)常用方法
1)端口檢測技術:根據tcp/udp的端口來識别應用。比如dns協定預設采用53端口、windows遠端調用采用135端口。
2)spi檢測技術:對ip包的5元組進行分析。5元組分别為源位址、源端口、目的位址、目的端口、協定類型
3)協定智能識别技術
(3)轉發能力(對網絡要求高)
3、網頁采集(網絡爬蟲)
網絡爬蟲是搜尋引擎抓取系統的重要組成部分。爬蟲的主要目的是将網際網路上的網頁下載下傳到本地,形式一個或聯網内容的鏡像備份。
(1)從爬蟲角度對網際網路進行分類
1)已下載下傳未過期見多頁
2)已下載下傳已過期網頁:抓取的網嶚已過期
3)待下載下傳網頁:待抓取url隊列中的那些頁面
4)可知網頁:可以通過已抓取頁面或待抓取url對應頁面進行分析擷取到url;
5)不可知網頁:無法通過爬蟲直接抓取下載下傳的。
(2)抓取url政策:待抓取url隊列中url排列序列決定了先要抓取哪個頁,後抓取哪個頁面。
1)深度優先周遊政策
從起始頁開始,一個連結一個連結地跟蹤下去,處理完這條線絡之後再轉入下一個超台頁,繼續跟蹤連結。
2)橫向優先搜尋政策
首先抓取超始網頁中連結的所有網頁,然後再選擇其中一個連結網頁,繼續抓取此網頁中連結的所有網頁。
3)反向連結數政策
反向連結數表示一個網頁的内容受其他人推薦的程度。
反向連結數指一個網頁被其他網頁連結指向的數量。
4)partialpagerank政策
5)opic曆政策
6)大站優先政策
将待抓取url隊列中的所有網頁按所屬的網站進行分類,待下載下傳頁面數多的網站則優先下載下傳。
(3)更新政策:決定什麼時候更新已下載下傳的頁面。
1)曆史參考政策
根據頁面以往的曆史更新資料,一般通過蔔瓦松過程進行模組化預測頁面未來何時會發生變化。
2)使用者體驗政策
保留網頁的多個曆史版本,根據過去每次的内容變化對搜尋品質影響得出一個平均值,該值決定什麼時候重新抓取資料。
3)叢集抽樣政策
注意:1)和2)都需用到曆史資訊,仍會存在以下問題:
第一點,系統保留每個網頁的多個曆史版本資訊,則會增加系統負但;
第二點,如果是新的網頁,新網頁沒有曆史記錄,則無法确定更新政策。
4、日志收集
任何生産系統在運作過程中都會大量日志,且日志存儲一段時間後會被自動清理,如何收集各生産系統的日志資訊并對其進行分析。常用元件flume(日志收集系統)+zookeepper、kafka+zookeepper(将前端采集的資訊轉發至後端,保證資訊的可靠性、實時性)
三、流處理
1、流資料:随時間延續無限增長動态資料集合。
2、大資料處理按處理時間跨度次元分為以下幾類:
(1)基于實時資料流的資料處理:數百毫秒到數秒之間
(2)基于曆史資料的互動式查詢:數十秒到數分鐘之間
(3)複雜的批量資料處理:幾分鐘到數小時之間