天天看點

大資料環境搭建之準備清單

作者:Neshoir

超圖大資料環境搭建之準備清單

     超圖空間大資料GIS平台基于Spark計算架構實作的,目前已對接主流的底層排程平台模式,如standalone,yarn,mesos等。在分布式存儲方面,已對接了hdfs,hbase,es等等。本文将列出超圖空間大資料GIS平台部署環境所需元件的清單,以及支援的一些第三方元件清單。

支援的環境
  • Ubuntu 14.04 & 16.04 以及 CentOS 7 ,主流的伺服器系統,如今容器技術的火熱發展,Spark 2.4也支援K8S中運作。so想嘗鮮的朋友可以選擇在K8S中跑Spark應用。
  • JDK 1.8 ,JDK環境要求至少是1.8版本及以上。
  • Scala 2.11 ,Scala是一門多範式的程式設計語言,具有面向對象和函數程式設計的特性,其運作于JVM之上,故可以很好的與Java做混合開發,目前推薦用Scala2.11版本,因為SuperMap iObjects for Spark元件是基于Scala2.11版本實作的,這樣可以避免版本的相容性問題。
支援的計算架構
  • Spark 2.10~2.4.* & Spark Streaming ,Spark是一個開源分布式計算架構,其特點就是運算快,因為計算是在記憶體裡執行的,它提供了互動式語言接口,以及豐富的api接口,如scala,java,python,R等,其生态完整,即提供了批處理能力,也提供了實時資料處理能力,另外也具備機器學習的能力。
支援的分布式存儲
  • Hadoop 2.7 ,Hadoop可以說是一個開源分布式項目,包含分布式計算架構MapReduce,分布式存儲系統HDFS,叢集資源排程架構YARN,在SuperMap iObjects for Spark産品中采用的計算架構是Spark,故我們隻會用到其HDFS元件。
  • Hbase 1.3.*,Hbase是分布式資料庫,面向列存儲,其底層存儲基于HDFS之上,其特點就是讀寫性能高效,支援PB,TB級别的大資料存儲,可橫向擴充,容錯性高等。在超圖Spark産品中可以用它來存儲海量的矢量資料以及栅格資料。
  • MonoDB ,mongodb是面向文檔的 資料庫,也支援叢集部署,支援分布式計算,在超圖Spark産品中用它來存儲矢量瓦片,栅格瓦片以及三維瓦片等。
  • Postgres-XL ,postgres-xl是分布式資料庫,其底層資料庫基于postgresql,具有很強的SQL特性,在一些複雜的查詢業務中應用很廣。
支援的實時資料元件
  • Elasticsearch 5.6.15 ,es作為一個高效的搜尋引擎,外加它内置geohash,且具備一定的點聚合能力,故在超圖Spark産品中選擇它作為基于位置資訊的實時資料存儲平台。
  • Kafka ,kafka作為一個統一,高吞吐,低延遲的分布式消息元件,非常适合實時資料的中間處理平台。
支援的服務協調架構
  • ZooKeeper ,zk作為叢集服務的協調架構,具有很強的高可用性,hbase叢集的運作就需要zookeeper架構支援。
超圖大資料産品
  • SuperMap iObjects Java 9D(2019) SP2 for Linux ,Java元件作為超圖Spark産品的底層空間處理及分析的支援。
  • SuperMap iObjects Java 9D(2019) SP2 for Spark ,分布式空間大資料計算元件,提供了資料入庫,空間運算,空間分析,栅格分析,實時路況等算子。
  • SuperMap iServer 9D(2019) SP2 for Linux(64位)(Deploy包) ,iServer是內建資料入庫,空間分析,可視化等一體化的分布式分析服務功能,簡單界面配置即可進行大資料分析,降低使用門檻。

​     如果是選擇基于超圖大資料GIS産品做二次開發,那麼推薦選擇用超圖的spark元件和java元件産品。如果隻是想要大資料GIS平台的功能,可以選擇用iServer産品,它内部包含了spark計算架構以及超圖的java元件和超圖的spark元件。

​     上面列舉的元件不是所有都需要部署的,對于開發客戶來說,根據自身的業務場景需要選擇相應的存儲元件。對于hbase來說是需要zookeeper元件協調的。

注:上面列舉的就是推薦的部分元件,每一個元件的部署參考其官網文檔說明,當然也支援傳統的資料庫,如oracle,mysql等等。

繼續閱讀