天天看點

什麼是大資料技術架構

大資料的應用開發過于偏向底層,具有學習難度大,涉及技術面廣的問題,這制約了大資料的普及。現在需要一種技術,把大資料開發中一些通用的,重複使用的基礎代碼、算法封裝為類庫,降低大資料的學習門檻,降低開發難度,提高大資料項目的開發效率。

大資料在工作中的應用有三種:與業務相關,比如使用者畫像、風險控制等;

與決策相關,資料科學的領域,了解統計學、算法,這是資料科學家的範疇;與工程相關,如何實施、如何實作、解決什麼業務問題,這是資料工程師的工作。

什麼是大資料技術架構

資料源的特點決定資料采集與資料存儲的技術選型,我根據資料源的特點将其分為四大類:

第一類:從來源來看分為内部資料和外部資料;

第二類:從結構來看分為非結構化資料和結構化資料;

第三類:從可變性來看分為不可變可添加資料和可修改删除資料;

第四類,從規模來看分為大量資料和小量資料

大資料平台第一個要素就是資料源,我們要處理的資料源往往是在業務系統上,資料分析的時候可能不會直接對業務的資料源進行處理,而是先經過資料采集、資料存儲,之後才是資料分析和資料處理。

從整個大的生态圈可以看出,要完成資料工程需要大量的資源;資料量很大需要叢集;要控制和協調這些資源需要監控和協調分派;面對大規模的資料怎樣部署更友善更容易;還牽扯到日志、安全、還可能要和雲端結合起來,這些都是大資料圈的邊緣,同樣都很重要。

大快大資料平台(DKH),是大快公司為了打通大資料生态系統與傳統非大資料公司之間的通道而設計的一站式搜尋引擎級,大資料通用計算平台。傳統公司通過使用DKH,可以輕松的跨越大資料的技術鴻溝,實作搜尋引擎級的大資料平台性能。

 DKH,有效的內建了整個HADOOP生态系統的全部元件,并深度優化,重新編譯為一個完整的更高性能的大資料通用計算平台,實作了各部件的有機協調。是以DKH相比開源的大資料平台,在計算性能上有了高達5倍(最大)的性能提升。

 DKH,更是通過大快獨有的中間件技術,将複雜的大資料叢集配置簡化至三種節點(主節點、管理節點、計算節點),極大的簡化了叢集的管理運維,增強了叢集的高可用性、高可維護性、高穩定性。

 DKH,雖然進行了高度的整合,但是仍然保持了開源系統的全部優點,并與開源系統100%相容,基于開源平台開發的大資料應用,無需經過任何改動,即可在DKH上高效運作,并且性能會有最高5倍的提升。

 DKH,更是內建了大快的大資料一體化開發架構(FreeRCH), FreeRCH開發架構提供了大資料、搜尋、自然語言處理和人工智能開發中常用的二十多個類,通過總計一百餘種方法,實作了10倍以上的開發效率的提升。

 DKH的SQL版本,還提供了分布式MySQL的內建,傳統的資訊系統,可無縫的實作面向大資料和分布式的跨越。

DKH标準平台技術構架圖

什麼是大資料技術架構