開源大資料平台實施的難點

2021-11-09 09:24:36

開源大資料技術是一種新一代技術和構架，它以成本較低、以快速的采集、處理和分析技術，從各種超大規模的資料中提取價值。大資料技術不斷湧現和發展，讓我們處理海量資料更加容易、更加便宜和迅速，成為分析和挖掘海量資料價值的一個利器，甚至可以改變許多行業的商業模式。

龐大的開源大資料技術體系，使得大資料平台在實施和使用的過程中遇到很多難點，think big團隊總結了在開源大資料平台設施的整個過程及花費的時間，如下圖所示：

　　1大資料平台的優化和運維

大資料平台的優化和運維應該是開源大資料平台實施的難點、也是建構大資料平台對人員的技術和經驗要求最高的階段，貫穿整個大資料平台實施過程。

2大資料平台的資料整合、資料治理和資料湖

對于傳統的企業使用大資料平台，資料整合、資料治理和資料湖也是非常重要和比較困難的階段，全公司不同資料源之間的資料整合面臨：資料的一緻性、資料的完整性、資料的準确性、資料的安全等問題如何解決，當然還有不同資料(如：冷資料、溫資料和熱資料)怎麼來存放，進而實作高效的資料存儲和分析。這些都是我們在大資料實施過程中需要花很多時間和經驗來實作的，很多的公司基本上都在直接或間接的使用大資料技術，有可能感覺大資料整合、治理、資料湖沒有那麼重要，把功能實作了，就覺得把大資料平台用的非常好了，其實不然，就像我上面提到的那張圖，功能的實作隻占大資料平台實施的一小部分。

3大資料平台上面的資料模組化

由于大資料平台面臨資料的一緻性、資料的完整性、資料的準确性等問題是以導緻大資料平台上面的模組化變得比較困難，此外還有不同行業面臨的大資料平台模組化問題各不相同。傳統行業在大資料上面的模組化面臨的挑戰還是非常多的，有的模型甚至不适合在開源大資料平台上面模組化，不要一味的去和互聯行業大資料平台上面的應用做比較，因為，網際網路的業務比傳統的業務模型簡單很多。

4資料挖掘和算法的實作

大資料平台的資料挖掘技術有hadoop的mahout、spark的mllib、sparkr等，這個現有的挖掘庫存在很多問題，如：分布式計算。對整個團隊的人員要求非常的高。

5應用開發(類似于傳統edw的bi功能)

類似于在hadoop上面實作一個傳統的edw的功能，常見用的比較多的就是sql on hadoop技術，如：hive、impala、tez、presto、kylin、sparksql等。

6大資料平台的選擇和搭建

主要是apache hadoop、hortonworks hdp和cloudera cdh的選擇，apache hadoop是純開源的，hortonworks hdp是開源hadoop生态系統的管理，cloudera cdh是開源hadoop生态系統的增強。

本文轉自d1net（轉載）

開源大資料平台實施的難點

繼續閱讀

Apache配置SSLApache配置SSL

Windows下配置Apache的SSL服務

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

User Defined Hadoop DataType

資料結構與算法（27）——排序（二）

Apache2.4.x 配置檔案詳解Apache配置需要了解如下：開始講解：

配置apache支援PHP（win7）

nginx 安裝錯誤資訊解決

neo4j之cypher使用文檔

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

sqlServer根據經緯查距離

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希