大資料簡介
大資料的概念
Volume(資料容量)、Variety(資料類型)、Viscosity(價值密度)、Velocity(速度)、Veracity(真實性)
大資料的性質
非結構性、不完備性、時效性、安全性、可靠性
大資料處理的全過程
資料采集與記錄 --> 資料抽取、清洗、标記 --> 資料內建、轉換、簡約 --> 資料分析與模組化 --> 資料解釋
大資料技術的特征
1.分析全面的資料而非随機抽樣
2.重視資料的複雜性,弱化精确性
3.關注資料的相關性,而非因果關系
大資料的關鍵技術
流處理、并行化、摘要索引、可視化
大資料應用趨勢
細分市場、推動企業發展、大資料分析的新方法出現、大資料與雲計算高度融合、大資料一體化裝置陸續出現、大資料安全
科學研究範式
第一範式(科學實驗)、第二範式(科學理論)、第三範式(系統模拟)、第四範式(資料密集型計算)
格雷法則
1.科學計算資料爆炸式增長
2.解決方案為橫向擴充的體系結構
3.将計算用于資料而不是資料用于計算(把程式向資料遷移。以計算為中心轉變為以資料為中心)
CAP理論
Consistency(一緻性)、Availability(可用性)、Partition Tolerance(分區容錯性)
CAP定理
一個分布式系統不可能同時滿足一緻性、可用性、分區容錯性三個系統需求,最多隻能同時滿足兩個。
CAP選擇
1.放棄分區容錯,導緻可擴充性不強:MySQL、Postgres
2.放棄可用性,導緻性能不是特别高:Redis、MongoDB、MemcacheDB、HBase、BigTable、Hypertable
3.放棄一緻性,對一緻性要求低:Cassandra、Dynamo、Voldemort 、CouchDB
HDFS
HDFS目标
1.相容廉價的硬體裝置
2.流資料讀寫
3.大資料集
4.簡單的檔案模型
5.強大的跨平台相容性
HDFS主要元件(圖來自哈爾濱理工大學大資料課程李老師的課件)

HDFS讀檔案
HDFS寫檔案
HDFS容錯
1.心跳檢測:NameNode和DataNode之間
2.檔案塊完整性:記錄建立檔案所有塊的校驗和
3.叢集負載均衡:自動從負載重的DataNode上遷移資料
4.檔案删除:存放在/trash下,過一段時間才正式删除。在hdfs-site.xml中配置
MapReduce
函數式程式設計優點
1.邏輯可證
2.子產品化
3.元件化
4.易于調試
5.易于測試
6.更高的生産率
函數式程式設計的特征
1.沒有副作用:沒有修改過函數在其作用域之外的量并被其他函數使用
2.無狀态的程式設計:将狀态儲存在參數中,作為函數的附贈品來傳遞(不是很懂)
3.輸入值和輸出值:在函數式程式設計中,隻有輸入值和輸出值。函數是基本的機關。在面向對象程式設計中,将對象傳來傳去;在函數式程式設計中,是将函數傳來傳去。
MapReduce流程圖(圖來自南京大學黃宜華老師的課件)
大資料流式計算
流式資料的特征
實時性、易失性、突發性、無序性、無限性、準确性
大資料流式計算模型
資料流管理系統:固定查詢、ad hoc查詢
大資料流式計算:Twitter Storm、Yahoo S4
Storm總體架構
主節點Nimbus:負責全局資源配置設定、任務排程、狀态監控、故障檢測
從節點Supervisor:接收任務,啟動或停止工作程序Worker。每個Worker内部有多個Executor。每個Executor對應一個線程。每個Executor對應一個或多個Task。
Zookeeper:協調、存儲中繼資料、從節點心跳資訊、存儲整個叢集的所有狀态資訊、所有配置資訊
Storm特征
1.程式設計簡單
2.支援多語言
3.作業級容錯
4.水準擴充
5.底層使用Zero消息隊列,快
Storm缺點
1.資源配置設定沒有考慮任務拓撲的結構特征,無法适應資料負載的動态變化
2.采用集中式的作業級容錯,限制了系統的可擴充性
搜尋引擎
搜尋引擎的定義
根據一定的政策、運用特定的計算機程式、從網際網路上搜集資訊,對資訊進行組織和處理之後,将這些資訊展示給使用者的系統叫搜尋引擎。
搜尋引擎的組成
搜尋器:搜集資訊
索引器:抽取索引
檢索器:在庫中檢索,排序。
使用者接口:展示
搜尋引擎的工作過程
爬行 -> 抓取存儲 -> 預處理 -> 排名
搜尋引擎的評價名額
查全率、查準率、響應時間、覆寫範圍、使用者友善性
大資料分析
資料分析的目的
對雜亂無章的資料進行集中、萃取、提煉,進而找出所研究對象的内在規律,發現其價值。
資料分析的意義
在雜亂的資料中分析出有價值的内容,獲得對資料的認知。
資料分析的類型
1.探索性資料分析(為了形成值得假設的檢驗)
2.定性資料分析(非數值型資料)
3.離線資料分析(先存于磁盤,批處理)
4.線上資料分析(實時)
---------------------------------------------------------
學如不及,猶恐失之