天天看點

整理大資料期末考試複習提綱--概念整理

大資料簡介

大資料的概念

Volume(資料容量)、Variety(資料類型)、Viscosity(價值密度)、Velocity(速度)、Veracity(真實性)

大資料的性質

非結構性、不完備性、時效性、安全性、可靠性

大資料處理的全過程

資料采集與記錄 -->  資料抽取、清洗、标記  -->  資料內建、轉換、簡約  -->  資料分析與模組化  -->  資料解釋

大資料技術的特征

1.分析全面的資料而非随機抽樣

2.重視資料的複雜性,弱化精确性

3.關注資料的相關性,而非因果關系

大資料的關鍵技術

流處理、并行化、摘要索引、可視化

大資料應用趨勢

細分市場、推動企業發展、大資料分析的新方法出現、大資料與雲計算高度融合、大資料一體化裝置陸續出現、大資料安全

科學研究範式

第一範式(科學實驗)、第二範式(科學理論)、第三範式(系統模拟)、第四範式(資料密集型計算)

格雷法則

1.科學計算資料爆炸式增長

2.解決方案為橫向擴充的體系結構

3.将計算用于資料而不是資料用于計算(把程式向資料遷移。以計算為中心轉變為以資料為中心)

CAP理論

Consistency(一緻性)、Availability(可用性)、Partition Tolerance(分區容錯性)

CAP定理

一個分布式系統不可能同時滿足一緻性、可用性、分區容錯性三個系統需求,最多隻能同時滿足兩個。

CAP選擇

1.放棄分區容錯,導緻可擴充性不強:MySQL、Postgres

2.放棄可用性,導緻性能不是特别高:Redis、MongoDB、MemcacheDB、HBase、BigTable、Hypertable

3.放棄一緻性,對一緻性要求低:Cassandra、Dynamo、Voldemort 、CouchDB

HDFS

HDFS目标

1.相容廉價的硬體裝置

2.流資料讀寫

3.大資料集

4.簡單的檔案模型

5.強大的跨平台相容性

HDFS主要元件(圖來自哈爾濱理工大學大資料課程李老師的課件)

整理大資料期末考試複習提綱--概念整理

HDFS讀檔案

整理大資料期末考試複習提綱--概念整理
整理大資料期末考試複習提綱--概念整理

HDFS寫檔案

整理大資料期末考試複習提綱--概念整理

HDFS容錯

1.心跳檢測:NameNode和DataNode之間

2.檔案塊完整性:記錄建立檔案所有塊的校驗和

3.叢集負載均衡:自動從負載重的DataNode上遷移資料

4.檔案删除:存放在/trash下,過一段時間才正式删除。在hdfs-site.xml中配置

MapReduce

函數式程式設計優點

1.邏輯可證

2.子產品化

3.元件化

4.易于調試

5.易于測試

6.更高的生産率

函數式程式設計的特征

1.沒有副作用:沒有修改過函數在其作用域之外的量并被其他函數使用

2.無狀态的程式設計:将狀态儲存在參數中,作為函數的附贈品來傳遞(不是很懂)

3.輸入值和輸出值:在函數式程式設計中,隻有輸入值和輸出值。函數是基本的機關。在面向對象程式設計中,将對象傳來傳去;在函數式程式設計中,是将函數傳來傳去。

MapReduce流程圖(圖來自南京大學黃宜華老師的課件)

大資料流式計算

流式資料的特征

實時性、易失性、突發性、無序性、無限性、準确性

大資料流式計算模型

資料流管理系統:固定查詢、ad hoc查詢

大資料流式計算:Twitter Storm、Yahoo S4

Storm總體架構

主節點Nimbus:負責全局資源配置設定、任務排程、狀态監控、故障檢測

從節點Supervisor:接收任務,啟動或停止工作程序Worker。每個Worker内部有多個Executor。每個Executor對應一個線程。每個Executor對應一個或多個Task。

Zookeeper:協調、存儲中繼資料、從節點心跳資訊、存儲整個叢集的所有狀态資訊、所有配置資訊

Storm特征

1.程式設計簡單

2.支援多語言

3.作業級容錯

4.水準擴充

5.底層使用Zero消息隊列,快

Storm缺點

1.資源配置設定沒有考慮任務拓撲的結構特征,無法适應資料負載的動态變化

2.采用集中式的作業級容錯,限制了系統的可擴充性

搜尋引擎

搜尋引擎的定義

根據一定的政策、運用特定的計算機程式、從網際網路上搜集資訊,對資訊進行組織和處理之後,将這些資訊展示給使用者的系統叫搜尋引擎。

搜尋引擎的組成

搜尋器:搜集資訊

索引器:抽取索引

檢索器:在庫中檢索,排序。

使用者接口:展示

搜尋引擎的工作過程

爬行 -> 抓取存儲 -> 預處理 -> 排名

搜尋引擎的評價名額

查全率、查準率、響應時間、覆寫範圍、使用者友善性

大資料分析

資料分析的目的

對雜亂無章的資料進行集中、萃取、提煉,進而找出所研究對象的内在規律,發現其價值。

資料分析的意義

在雜亂的資料中分析出有價值的内容,獲得對資料的認知。

資料分析的類型

1.探索性資料分析(為了形成值得假設的檢驗)

2.定性資料分析(非數值型資料)

3.離線資料分析(先存于磁盤,批處理)

4.線上資料分析(實時)

---------------------------------------------------------

學如不及,猶恐失之