天天看點

資料可視化模組化平台系統介紹

作者:資料分析小兵

一、需求描述

DT時代,資料量呈指數級增長,資訊資源爆炸式激增。各行業的決策者已經意識到了資料是的核心資産,并期望對資料進行存儲和挖掘以達到資産保值甚至增值的目的。大多數企事業機關在面對海量、異構、實時的大資料時,往往沒有足夠的技術能力和經驗,進行複雜的大資料處理,并支撐多元化的應用。資料分析工具和懂資料分析的人正在成為企事業機關稀缺資源,資料挖掘分析及可視化工具是資料分析過程中重要的一個環節,自助模組化将是資料分析工作的未來趨勢。在未來,人人都是資料分析師,人人都能分析資料。

二、産品說明

2.1、功能描述

資料挖掘分析及可視化平台是一站式全鍊路資料生命周期管家,幫助各個行業使用者管理資料資産并挖掘價值。平台提供多源異構的資料采集子產品、實時/離線計算架構,簡潔易用的開發環境和平台接口,為政府機構、企業、科研機構、第三方軟體服務商等客戶,提供大資料管理、開發和計算的能力。讓客戶最大化的發現與分析行業内部核心業務資料價值,挖掘現有業務和應用系統的潛在商機,培育完好的業務創新産業鍊,實作資料應用的完整閉環,幫助客戶實作商業價值。

2.2、使用者群

資料挖掘分析及可視化平台主要行業及目标使用者群體包括科研教育、電商零售、物聯網、企業數字化、公安交管行業、智慧農業、橋梁監測、醫療行業等等。

² 科研教育:包括教學資料分析、科研資料分析、校園網物聯網資料分析、面向校級宏觀決策的資料分析等等。

² 醫療行業

1)通過對臨床資料的分析,對患者進行更有前瞻性的治療和照護,提高疾病的治療效果;

2)通過對最新的資料庫的分析提高對臨床決策的支援;

3)通過對統計工具和算法的使用來改善臨床試驗的設計;

4)通過對大資料集的分析為個性化醫療提供支援;

5)通過優化業務決策支援,以確定醫療資源的适當配置設定;

² 金融行業

1)營運類:曆史記錄管理、多管道資料整合分析、産品定位分析、客戶洞察分析、客戶全生命周期分析等。

2)服務類:個性化坐席配置設定、個性化産品推薦、個性化權益比對、個性化産品定價、客戶體驗優化、客戶流失預警與客戶挽留等。

3)營銷類:網際網路獲客、産品推廣、交叉銷售、社會化營銷、管道效果分析、差異化廣告投放等。四、資料分析在風險管理領域可應用于實時反欺詐、反洗錢、實時風險識别、線上授信等場景。

² 物聯網行業:物聯網資料分析提供豐富的資料可視化元件、常用統計分析方法及大資料分析工具,緻力于降低資料分析門檻,助力物聯網行業應用,賦能行業。

² 公安交管:基于公安交管的人、車、物、手機、出行軌迹、住店資料等等,進行專業場景分析,建構業務資料模型。

² 企業數字化轉型:助力企業内部多源異構資料有效整合、清洗與梳理,進行資料資産沉澱,形成可輔助決策的分析模型,建構企業大腦,通過可視化大屏進行展示。

² 智慧農業:農情環境監測裝置(傳感器、監測終端、傳輸終端)部署為基礎,在各類種植區域内部署多個監測點,對多項重要的環境要素進行監測,通過對這些資料進行有效的資料模組化分析,實作擷取更多、更全、更實用的幫助農企、農戶種植進一步優化的可靠資料。

² 橋梁監測:基于橋梁監測中的物聯網資料,包括溫濕度、風速、混凝土内部溫度、橋梁受力、橋梁同行車輛資料等等,進行多元度挖掘分析,對橋梁進行有效實時監測。

電商零售:擷取電商資料及關鍵名額,深入洞悉市場趨勢,推動業務增長。

2.3、産品亮點

² 通過可視化拖拽圖示的方式,就可以完成業務模型設計和資料分析工作,降低了技術門檻,大大提升了工作效率。

² 自助式可視化圖示設計,拖拽圖表模版,設定資料來源,兩步生成科技感十足的可視化圖示。

² 系統支援單機版(僅一台服務支援運作)、大資料版(多台叢集),低使用成本,全場景滲透。

² 适配多種類型資料庫的資料抽取和資料推送,面對各種情況都可以輕松解決。

² 分級使用者管理,對原始資料、成果資料、和算法模型提供分級管控。

² 支援海量資料挖掘分析碰撞。

2.4、産品功能

資料可視化模組化平台系統介紹

資料挖掘分析及可視化平台核心功能,主要包括資料倉庫、模型工廠、應用超市、智能看闆、任務中心、系統管理等。

2.5、核心技術

采用基于J2EE技術的多層架構開發模式

系統的整體架構基于J2EE技術實作。在開發企業級應用系統方面采用J2EE技術實作具有明顯優勢:

Ø 平台無關性:可以輕松地移植到幾乎任何作業系統和主機平台環境下

Ø 廣泛的支援:技術路線的選擇需要考慮到目前計算機技術的主流發展趨勢。而J2EE技術獲得了大多數國際和國内廠商的廣泛支援,已經成為首選的主流技術

Ø 開放性和标準性:J2EE技術相容和支援多數重要的技術規範和協定,如CORBA、Web Service、消息中間件、交易中間件、主流資料庫存取,有利于系統對外提供服務接口、擴充服務功能

Ø 穩定的可用性:一個伺服器端平台必須能全天候運轉以滿足使用者的需要。J2EE部署到可靠的操作環境中,支援長期的可用性。

基于Docker容器的元件開發技術

Docker 是一個開源的應用容器引擎,讓開發者可以打包他們的應用以及依賴包到一個可移植的容器中,然後釋出到任何流行的Linux機器上,也可以實作虛拟化。容器是完全使用沙箱機制,互相之間不會有任何接口。

Docker核心解決的問題是利用LXC來實作類似VM的功能,進而利用更加節省的硬體資源提供給使用者更多的計算資源。同VM的方式不同, LXC其并不是一套硬體虛拟化方法-無法歸屬到全虛拟化、部分虛拟化和半虛拟化中的任意一個,而是一個作業系統級虛拟化方法, 了解起來可能并不像VM那樣直覺。是以我們從虛拟化到docker要解決的問題出發,看看他是怎麼滿足使用者虛拟化需求的。

大資料體系架構

Hadoop大資料技術是新興的資料存儲、處理系統,有别于關系型資料庫,實作了對海量的資料存儲、分析成為可能,利用大資料技術對海量資料産生關聯關系、預測行為等挖掘價值資訊,使資料産生更大的價值,大資料相關元件如下:

Ø HDFS

一個分布式檔案系統,隐藏下層負載均衡,備援複制等細節,對上層程式提供一個統一的檔案系統API接口。HDFS針對海量資料特點做了特别優化,包括:超大檔案的通路、讀操作比例遠超過寫操作、PC機極易發生故障造成節點失效等。HDFS把檔案分成64MB的塊,分布在叢集的機器上,使用Linux的檔案系統存放;同時每塊檔案至少有3份以上的備援,中心是一個NameNode節點,根據檔案索引,找尋檔案塊。

Ø Hive

基于Hadoop的大資料分布式資料倉庫引擎。它可以将資料存放在分布式檔案系統或分布式資料庫中,并使用SQL語言進行海量資料統計、查詢和分析操作。

Ø HBase

一個分布式的、按列存儲的、多元表結構的實時分布式資料庫。它可以提供大資料量結構化和非結構化資料的高速讀寫操作,為高速線上資料服務而設計。支援列式存儲,可指定某列族的壓縮方式和複制份數,做到可用性和複制備援靈活調配。

Ø Impala

Impala是Cloudera公司主導開發的新型查詢系統,它提供SQL語義,能查詢存儲在Hadoop的HDFS和HBase中的PB級大資料。已有的Hive系統雖然也提供了SQL語義,但由于Hive底層執行使用的是MapReduce引擎,仍然是一個批處理過程,難以滿足查詢的互動性。相比之下,Impala的最大特點也是最大賣點就是它的快速。

Ø Zookeeper

針對大型分布式系統的可靠協調系統,提供的功能包括:配置維護、名字服務、分布式同步、組服務等。它可以維護系統配置、群組使用者和命名等資訊。

基于spring boot微服務架構體系

一套完整的微服務架構需要考慮許多問題,包括API Gateway、服務間調用、服務發現、服務容錯、服務部署、資料調用等。基于SpringCloud建構微服務架構可以通過自動配置和綁定Spring環境和其他Spring程式設計模型來實作微服務。采用Spring Boot應用程式提供的內建功能,通過幾個簡單的注釋,開發人員可以快速配置和啟用應用程式中的常見功能子產品,并使用久經考驗的Netflix元件建構大型分布式系統。提供的微服務功能子產品包括服務發現(Eureka),斷路器(Hystrix),智能路由(Zuul)和用戶端負載均衡(Ribbon)等。

資料可視化模組化平台系統介紹

Spring boot 多子產品的架構模式。服務間通過restful接口進行資料通路。

基于H5、vue的前端技術

Ø HTML5,

HTML5具有以下新特性:

語義特性:HTML5賦予網頁更好的意義和結構。

本地存儲特性:基于HTML5開發的網頁APP擁有更短的啟動時間,更快的聯網速度,因為可以将一些常用、不常更新的内容存儲在本地。

裝置相容特性 :HTML5提供了前所未有的資料與應用接入開放接口

連接配接特性:HTML5擁有更有效的伺服器推送技術,Server-SentEvent和WebSockets就是其中的兩個特性,這兩個特性能夠幫助實作伺服器将資料“推送”到用戶端的功能。更有效的連接配接工作效率,可以實作基于頁面的實時聊天,更快速的網頁遊戲體驗,更優化的線上交流。

網頁多媒體特性:支援網頁端的Audio、Video等多媒體功能。三維、圖形及特效特性(Class: 3D, Graphics & Effects),基于SVG、Canvas、WebGL及CSS3的3D功能,視覺效果将大大增強,線上3D網遊就是最典型的例子。

性能與內建特性:HTML5會通過XMLHttpRequest2等技術,幫助Web應用和網站在多樣化的環境中更快速的工作。最直覺的就是加載會更快。

CSS3特性:如果把網頁比喻成舞台,文字圖檔視訊這些比喻成演員,那麼CSS3就是化妝師和舞美,它控制着網頁所有元素的視覺和動作效果。相對于舊的CSS版本,HTML5所支援的CSS3中提供了更多的風格和更強的效果,也提供了更高的靈活性和控制性。

Ø Vue的使用

Vue是一個高性能的JavaScript架構,也是一個建立單頁面應用的Web應用架構。在傳統開發中,我們需要直接操作DOM來寫需求,而Vue提供了聲明式操作DOM的能力。Vue使用了MVVM模型,實作資料與視圖的雙向綁定,通過視圖中元素綁定的事件來修改資料,資料的變動來驅動視圖的更新,無需關心具體如何操作DOM。這裡的事件監聽不再需要像以前那樣,首先通過JavaScript擷取DOM元素,然後進行接下來的DOM操作,Vue有一套v-字首的指令系統在模闆編寫階段便很友善地将DOM元素與需要的DOM操作綁定到一起。另外,Vue允許将一個網頁分割成多個可複用的元件,降低整個系統的耦合度,同時友善調試,提高可維護性。

Codis 記憶體資料庫

記憶體資料庫,是将資料放在記憶體中直接操作的資料庫。相對于磁盤,記憶體的資料讀寫速度要高出幾個數量級,将資料儲存在記憶體中相比從磁盤上通路能夠極大地提高應用的性能。記憶體資料庫系統帶來的優越性能不僅僅在于對記憶體讀寫比對磁盤讀寫快上,更重要的是,從根本上抛棄了磁盤資料管理的許多傳統方式,基于全部資料都在記憶體中管理進行了新的體系結構的設計,并且在資料緩存、快速算法、并行操作方面也進行了相應的改進,進而使資料處理速度一般比傳統資料庫的資料處理速度快很多,一般都在10倍以上,理想情況甚至可以達到1000倍。

Codis 是一個分布式 Redis 解決方案, 對于上層的應用來說, 連接配接到 Codis Proxy 和連接配接原生的 Redis Server 沒有顯著差別, 上層應用可以像使用單機的 Redis 一樣使用, Codis 底層會處理請求的轉發, 不停機的資料遷移等工作, 所有後邊的一切事情, 對于前面的用戶端來說是透明的, 可以簡單的認為後邊連接配接的是一個記憶體無限大的 Redis 服務。

Redis獲得動态擴容/縮容的能力,增減redis執行個體對client完全透明、不需要重新開機服務,不需要業務方擔心 Redis 記憶體爆掉的問題. 也不用擔心申請太大, 造成浪費. 業務方也不需要自己維護 Redis。

Codis支援水準擴容/縮容,擴容可以直接界面的 "Auto Rebalance" 按鈕,縮容隻需要将要下線的執行個體擁有的slot遷移到其它執行個體,然後在界面上删除下線的group即可。

Spark Streaming

Spark Streaming是一個準實時流處理架構,處理響應時間一般以分鐘為機關,處理實時資料的延遲時間是秒級别的;Storm是一個實時流處理架構,處理響應是毫秒級的。SparkStreaming優點:

1、提供了豐富的API,企業中能快速實作各種複雜的業務邏輯。

2、流入Spark Streaming的資料流通過和機器學習算法結合,完成機器模拟和圖計算。

3、Spark Streaming基于Spark優秀的血統。

本項目利用Spark流計算,接收kafka的資料,并按照協定解析資料,同時按照部門産品定制的需求對外提供訂閱服務,産品層通過浏覽器rest接口向kafka訂閱topic發送訂閱指令,spark streaming根據kafka訂閱資訊計算訂閱結果,然後将結果存入到kafka結果topic中,然後websocket根據擷取的訂閱編号、IP端口、訂閱結果與浏覽器連接配接,向浏覽器實時推送訂閱的結果。

kafka技術

Kafka是一種高吞吐量的分布式釋出訂閱消息系統,它可以處理消費者規模的網站中的所有動作流資料。 這些資料通常是由于吞吐量的要求而通過處理日志和日志聚合來解決。 對于像Hadoop的一樣的日志資料和離線分析系統,但又要求實時處理的限制,這是一個可行的解決方案。Kafka的目的是通過Hadoop的并行加載機制來統一線上和離線的消息處理,也是為了通過叢集來提供實時的消費。

本平台利用kafka技術作為資料輸送的管道,把海量資料高效的輸送到各類型資料庫中。

三、應用場景

3.1 簡單資料分析工作

資料可視化模組化平台系統介紹

簡單資料分析工作是指分析工作的需求資料源明确,模組化邏輯清晰,無需複雜算法就能實作的資料分析和統計工作。主要包括如下場景:

² 上司臨時交辦的資料分析統計任務;

² 某些專項活動中需要的資料分析統計任務;

² 業務中出現的資料分析統計需求;

² 工作中出現的資料分析統計需求。

3.2 複雜業務專題研判

資料可視化模組化平台系統介紹

複雜業務專題研判是指分析工作的資料來源多,相關工作業務複雜,需要根據業務特點選擇相應的算法模型才能實作的資料挖掘和研判工作。針對這類複雜需求,需要先進行一下步驟:需求分析、業務梳理、資料準備、模型算法更新、生成結果,資料推送。

3.3 日常資料統計

資料可視化模組化平台系統介紹

日常工作分析工作是指固定時間周期性重複進行的分析工作,可以對分析工作進行模組化後,設定模型定期執行并結果推送至前台功能進行展示。

3.4 資料可視化設計及展示

資料可視化模組化平台系統介紹

近百種元件特效任意組合即可制作酷炫靈動的大屏駕駛艙,使用者可以根據工作需要,自己設計科技感十足的可視化報表,通過簡單的圖表元件拖拽和資料來源點選,就可以快速完成可視化報表的設計。

繼續閱讀