大資料 #大資料

大資料首次是在1998rh usenix大會上由johnr.masey提出的。

一、什麼是大資料？

大資料不是特指hadoop，它是一系列技術的集合，而hadoop隻是其中一種具體處理資料的架構技術。

二、資料分類

（1）結構化資料：結構固定，每個字段有固定的語義和長度，計算機程式可以直接處理

（2）非結構化資料：計算機程式無法直接處理，需要先對資料進行格式轉換或資訊提取。

注意：半結構化資料

三、如何擷取資料

1、按探針位置進行分類，探針可以分類：

（1）内置探針：探針裝置和已有網絡裝置部署在同一個機框内，直接擷取資料。

（2）外置探針：無法改變原有網絡，需要額外部署探針

2、探針能力

（1）探針裝置的高容量、高度內建

（2）流量解析(網絡資料解析)，流量資料解析（協定識别)常用方法

1）端口檢測技術：根據tcp/udp的端口來識别應用。比如dns協定預設采用53端口、windows遠端調用采用135端口。

2）spi檢測技術：對ip包的5元組進行分析。5元組分别為源位址、源端口、目的位址、目的端口、協定類型

3）協定智能識别技術

（3）轉發能力(對網絡要求高)

3、網頁采集（網絡爬蟲）

網絡爬蟲是搜尋引擎抓取系統的重要組成部分。爬蟲的主要目的是将網際網路上的網頁下載下傳到本地，形式一個或聯網内容的鏡像備份。

（1）從爬蟲角度對網際網路進行分類

1）已下載下傳未過期見多頁

2）已下載下傳已過期網頁：抓取的網嶚已過期

3）待下載下傳網頁：待抓取url隊列中的那些頁面

4）可知網頁：可以通過已抓取頁面或待抓取url對應頁面進行分析擷取到url；

5）不可知網頁：無法通過爬蟲直接抓取下載下傳的。

（2）抓取url政策：待抓取url隊列中url排列序列決定了先要抓取哪個頁，後抓取哪個頁面。

1）深度優先周遊政策

從起始頁開始，一個連結一個連結地跟蹤下去，處理完這條線絡之後再轉入下一個超台頁，繼續跟蹤連結。

2）橫向優先搜尋政策

首先抓取超始網頁中連結的所有網頁，然後再選擇其中一個連結網頁，繼續抓取此網頁中連結的所有網頁。

3）反向連結數政策

反向連結數表示一個網頁的内容受其他人推薦的程度。

反向連結數指一個網頁被其他網頁連結指向的數量。

4）partialpagerank政策

5）opic曆政策

6）大站優先政策

将待抓取url隊列中的所有網頁按所屬的網站進行分類，待下載下傳頁面數多的網站則優先下載下傳。

（3）更新政策：決定什麼時候更新已下載下傳的頁面。

1）曆史參考政策

根據頁面以往的曆史更新資料，一般通過蔔瓦松過程進行模組化預測頁面未來何時會發生變化。

2）使用者體驗政策

保留網頁的多個曆史版本，根據過去每次的内容變化對搜尋品質影響得出一個平均值，該值決定什麼時候重新抓取資料。

3）叢集抽樣政策

注意：1）和2）都需用到曆史資訊，仍會存在以下問題：

第一點，系統保留每個網頁的多個曆史版本資訊，則會增加系統負但；

第二點，如果是新的網頁，新網頁沒有曆史記錄，則無法确定更新政策。

4、日志收集

任何生産系統在運作過程中都會大量日志，且日志存儲一段時間後會被自動清理，如何收集各生産系統的日志資訊并對其進行分析。常用元件flume（日志收集系統）+zookeepper、kafka+zookeepper（将前端采集的資訊轉發至後端，保證資訊的可靠性、實時性）

三、流處理

1、流資料：随時間延續無限增長動态資料集合。

2、大資料處理按處理時間跨度次元分為以下幾類：

（1）基于實時資料流的資料處理：數百毫秒到數秒之間

（2）基于曆史資料的互動式查詢：數十秒到數分鐘之間

（3）複雜的批量資料處理：幾分鐘到數小時之間

大資料

繼續閱讀

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

HDFS指令行工具

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark