-
什麼是大資料?他有哪四個基本特征(四個V)?
- 大資料,是指無法在可承受的時間範圍内用正常軟體工具進行捕捉、管理和處理的資料集合。
-
資料量大,TB,PB,乃至EB等資料量的資料需要分析處理。
Volume
-
處理速度快,市場變化快,要求能及時快速的響應變化,那對資料的分析也要快速,在性能上有更高的要求是以資料量顯得對速度要求有些大。
Velocity
-
資料種類繁多:不同的資料源,非結構化資料越來越多,需要進行清洗,整理,篩選等操作,變為結構資料。
Variety
-
價值密度低,由于資料采集的不及時,資料樣本不全面,資料可能不連續等等,資料可能會失真,但當資料量達到一定規模,可以通過更多的資料達到更真實全面的回報。
Value
-
Hadoop大資料處理架構
- Hadoop是一個開源的、可運作于大規模叢集上的分布式計算平台,它實作了MapReduce計算模型和分布式檔案系統HDFS等功能。
- hadoop的特性:高可靠性、高效性、高可擴充性、高容錯性、成本低、運作在Linux平台上、支援多種程式設計語言。
- Hadoop是基于Java語言開發的,具有很好的跨平台特性,并且可以部署在廉價的計算機叢集中。
- Hadoop的核心是分布式檔案系統和MapReduce。
- 借助于Hadoop,程式員可以輕松地編寫分布式并行程式,并将其·運作于廉價計算機叢集上,萬成為那個海量資料的存儲與計算。
- 國内采用Hadoop的公司主要有:百度、淘寶、網易、華為、中國移動等。
- Hadoop生态系統包括核心的HDFS和MapReduce以外還包括Zookeeper、HBase、Hive、Pig、Mahout、Sqoop、Flume、Ambari。
- Hadoop的安裝配置主要包括以下五個步驟
- 建立Hadoop使用者(建立使用者:useradd,設定密碼:passwd)
- 安裝Java(Hadoop開發和運作都需要Java的支援,Ubuntu系統可能已經預裝了java)
- 設定SSH登入權限
- 單機安裝配置
- 僞分布式安裝配置