天天看點

什麼是大資料技術?

作者:IT三寶

大資料技術的目的就是為了應對業務環境(生活或生産)中第一時間産生的大量或海量資料,可能是一天幾個億甚至幾十億的資料,要對這些資料進行結構化處理,既能大吞吐量的寫入存儲,還能快速的查詢到存儲的結構,既要均衡的分布這些資料,還能對出現問故障的節點,快速進行恢複,既能保證系統在分布式環境下具有良好的可用性,在某些情況下還要保證資料的一緻性(接近),既要能快速的調用業務規則,實作資料驅動下的實時處理,還能對成百上千台存儲了N多個PT資料集的并行分析,提供算力最大化的資料處理架構。

那大資料開發呢,實際上分兩種:第一類是編寫一些Hadoop、Spark的應用程式,第二類是對大資料處理系統本身進行開發。第二類工作的話通常才大公司裡才有,一般他們都會搞自己的系統或者再對開源的做些二次開發。這種工作的話對理論和實踐要求的都更深一些,也更有技術含量。接下來來開始拆分大資料開發,這些都是基礎要掌握的内容

  • 01 Python基礎:文法· Python資料處理· 函數· 檔案讀寫· 異常處理· 子產品和包
  • 02 Python進階:面向對象· 網絡程式設計· 多任務程式設計· 進階文法· Python程式設計綜合項目
  • 03 SQL基礎: MySQL與SQL· Kettle與BI工具· Pymysql
  • 04 ETL基礎: ETL概念與工具· Python ETL實戰· BI
  • 05 Hadoop技術棧 :Linux· 大資料基礎和硬體介紹· Zookeeper· HDFS· MapReduce· YARN· Hive基礎· Hive高階
  • 06 Spark技術棧 : Pandas基礎· Pandas資料處理實戰· Spark基礎· Spark Core· Spark SQL· SparkSQL案例· Kafka· Elasticsearch
  • 07 Flink技術棧 : Flink Core· Flink DataStream· Flink SQL· Flink Runtime· Flink進階· Flink電商案例實戰

學習資源:2022年黑馬python大資料開發學習路線

一、網站

1. 網易公開課 https://http://open.163.com/

2. 騰訊課堂 https://http://ke.qq.com/

3. 中國大學慕課 https://www.http://icourse163.org/

4. B站 https://www.http://bilibili.com/

學習資源非常多,内容系統且全面,重點關注一些專業教育訓練機構上傳的學習視訊

5. Statista https://www.http://statista.com/

6. CEIC https://www.http://ceicdata.com/en

7. InfoQ-大資料https://www.http://infoq.cn/

二、書籍

1. 《為資料而生》

什麼是大資料技術?

這是一部大資料在智慧城市、醫療、教育、金融、商業等領域的實踐筆記;更是一部為未來大資料的發展提供有可行性的路徑指南!

2. 《R語言預測實戰》

什麼是大資料技術?

R語言具有上手快、效率高的特點,它橫跨金融、生物、醫學、網際網路等多個領域,主要用于統計、模組化及可視化。預測是資料挖掘的主要作用之一,也是大資料時代的核心價值所在。

3. 《Hadoop權威指南》

什麼是大資料技術?

本書是Hadoop權威參考,程式員可從中探索如何分析海量資料集,管理者可以從中了解如何安裝與運作Hadoop叢集。

繼續閱讀