天天看點

開源大資料平台實施的難點

開源大資料技術是一種新一代技術和構架,它以成本較低、以快速的采集、處理和分析技術,從各種超大規模的資料中提取價值。大資料技術不斷湧現和發展,讓我們處理海量資料更加容易、更加便宜和迅速,成為分析和挖掘海量資料價值的一個利器,甚至可以改變許多行業的商業模式。

龐大的開源大資料技術體系,使得大資料平台在實施和使用的過程中遇到很多難點,think big團隊總結了在開源大資料平台設施的整個過程及花費的時間,如下圖所示:

開源大資料平台實施的難點

  1大資料平台的優化和運維

大資料平台的優化和運維應該是開源大資料平台實施的難點、也是建構大資料平台對人員的技術和經驗要求最高的階段,貫穿整個大資料平台實施過程。

2大資料平台的資料整合、資料治理和資料湖

對于傳統的企業使用大資料平台,資料整合、資料治理和資料湖也是非常重要和比較困難的階段,全公司不同資料源之間的資料整合面臨:資料的一緻性、資料的完整性、資料的準确性、資料的安全等問題如何解決,當然還有不同資料(如:冷資料、溫資料和熱資料)怎麼來存放,進而實作高效的資料存儲和分析。這些都是我們在大資料實施過程中需要花很多時間和經驗來實作的,很多的公司基本上都在直接或間接的使用大資料技術,有可能感覺大資料整合、治理、資料湖沒有那麼重要,把功能實作了,就覺得把大資料平台用的非常好了,其實不然,就像我上面提到的那張圖,功能的實作隻占大資料平台實施的一小部分。

3大資料平台上面的資料模組化

由于大資料平台面臨資料的一緻性、資料的完整性、資料的準确性等問題是以導緻大資料平台上面的模組化變得比較困難,此外還有不同行業面臨的大資料平台模組化問題各不相同。傳統行業在大資料上面的模組化面臨的挑戰還是非常多的,有的模型甚至不适合在開源大資料平台上面模組化,不要一味的去和互聯行業大資料平台上面的應用做比較,因為,網際網路的業務比傳統的業務模型簡單很多。

4資料挖掘和算法的實作

大資料平台的資料挖掘技術有hadoop的mahout、spark的mllib、sparkr等,這個現有的挖掘庫存在很多問題,如:分布式計算。對整個團隊的人員要求非常的高。

5應用開發(類似于傳統edw的bi功能)

類似于在hadoop上面實作一個傳統的edw的功能,常見用的比較多的就是sql on hadoop技術,如:hive、impala、tez、presto、kylin、sparksql等。

6大資料平台的選擇和搭建

主要是apache hadoop、hortonworks hdp和cloudera cdh的選擇,apache hadoop是純開源的,hortonworks hdp是開源hadoop生态系統的管理,cloudera cdh是開源hadoop生态系統的增強。

本文轉自d1net(轉載)