從事大資料相關的工作如何自學打基礎?

2021-11-10 07:35:58

海量資料分成兩塊，一是系統建設技術，二，海量資料應用。

先說系統建設，現在主流的技術是hadoop，主要基于mapreduce的分布式架構。目前可以先學習這個。但是我的觀點，在分布式系統出來之前，主要是集中式架構，如db2，oracle。為什麼現在用分布式架構，那是因為現在集中式架構受限于io性能，出來速度慢，如果又一種硬體技術，可以很快地處理海量資料，性能上能滿足需求，那麼集中式架構優于分布式架構，因為集中式架構穩定，運維壓力小。現在的集中式架構要麼性能達不到要求，要麼就是過于昂貴。我期待一種技術出現，可以非常快地傳輸和處理資料，那麼集中式架構将再次進入人們眼球。再說海量資料應用。海量資料應用主要是資料挖掘和機器算法。具體有不同的應用場景，如個性化搜尋和推薦，社交網絡發現，精準營銷，精準廣告，實時最優路徑，人工智能等等。看你想做系統支撐技術還是與業務結合的應用技術。

如果現在學系統建設技術，可以讀下如下書籍：

如果學資料挖掘和機器算法，推薦先看資料挖掘導論，統計分析原理，mahout，r,matlab

本文作者：佚名

來源：51cto

從事大資料相關的工作如何自學打基礎?

繼續閱讀

ubuntu14.04下安裝hbse1.0.1.1

筆試面試題目：滑動視窗(二)

Linxu常用指令技巧彙總

httpd服務的部署、啟動、配置和簡單優化一、部署二、啟動三、配置檔案

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

User Defined Hadoop DataType

資料結構與算法（27）——排序（二）

nginx 安裝錯誤資訊解決

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

Oracle 批量查詢傳入List 傳回List

hdu7108哈希

從事大資料相關的工作 如何自學打基礎?

繼續閱讀

從事大資料相關的工作如何自學打基礎?