一、大資料是什麼?
大資料,bigdata,《大資料》一書對大資料這麼定義,大資料是指不能用随機分析法(抽樣調查)這樣捷徑,而采用所有資料進行分析處理。
這句話至少傳遞兩種資訊:
1、大資料是海量的資料
2、大資料處理無捷徑,對分析處理技術提出了更高的要求
二、大資料的處理流程
下圖是資料處理流程:
1、底層是數以千億計的資料源,資料源可以是SCM(供應鍊資料),4PL(物流資料),CRM(客戶資料),網站日志以及其他的資料
2、第二層是資料加工層,資料工程師對資料源按照标準的統計口徑和名額對資料進行抽取、清洗、轉化、裝載(整個過程簡稱ELT)
3、第三層是資料倉庫,加工後的資料流入資料倉庫,進行整合和存儲,形成一個又一個資料集市。
資料集市,指分類存儲資料的集合,即按照不同部門或使用者的需求存儲資料。
4、第四層是BI(商業智能),按照業務需求,對資料進行分析模組化、挖掘、運算,輸出統一的資料分析平台
5、第五層是資料通路層,對不同的需求方開放不同的資料角色和權限,以資料驅動業務。
大資料的量級,決定了大資料處理及應用的難度,需要利用特定的技術工具去處理大資料。
人工智能、大資料、雲計算和物聯網的未來發展值得重視,均為前沿産業,多智時代專注于人工智能和大資料的入門和科譜,在此為你推薦幾篇優質好文:
大資料工程師教育訓練,需要學習的有哪些課程?
http://www.duozhishidai.com/article-15081-1.html
大資料工程師就業教育訓練哪個好?
http://www.duozhishidai.com/article-15082-1.html
java大資料與python大資料如何選擇?
http://www.duozhishidai.com/article-12540-1.html
多智時代-人工智能和大資料學習入門網站|人工智能、大資料、物聯網、雲計算的學習交流網站