天天看點

三張圖讀懂Greenplum在企業的正确使用姿勢

很多使用資料倉庫的朋友可能都有過這樣的困惑,為什麼資料倉庫的資源經常會出現不可控,或者搶用的情況,嚴重的甚至影響正常的作業任務,導緻不能按時輸出報表或者分析結果。

這裡的原因較多,最主要的原因可能還是使用姿勢不對,mpp是用極資源的産品,一夥人在搶資源當然跑不好。你想想一個跑道能讓多架飛機同時起飛或降落嗎?

資料倉庫的使用人員通常是資料分析師,一個成熟的分析模型的建立,可能需要多次的資料模型分析試錯。

通常試錯不會允許直接在任務庫中執行,因為很容易幹擾任務庫的任務處理,你一定不想因為試錯導緻報表不能按時輸出吧,相信老闆會讓你好看的。

是以老外通常會将資料倉庫分為兩種,一種是跑任務的大數倉,所有的資料都在大數倉裡面。

分析人員使用的是獨立的小型分析庫,如果要試錯的話,向dba送出測試資料的etl申請,拿到資料後進行分析模組化,在多次資料模型分析試錯後找到成熟的資料分析模型,再送出到大數倉去run 任務。

由于分析人員可能較多,不同的分析人員可能會有同一份資料的分析需求,是以這種模式造成了大量的重複試錯資料。每個分析師都要問dba要資料,也會很痛苦。

三張圖讀懂Greenplum在企業的正确使用姿勢

loftd是一個獨立的具備處理predict, project filter請求的檔案伺服器。

将loftd作為一個外部的資料源,讀寫非常友善。

資料分析人員向dba送出資料抽取請求,資料被抽取到loftd,小型分析庫通過外部表的方式通路loftd。

并且loftd可以共享給多個小型分析庫使用,是以消除了資料的備援。

三張圖讀懂Greenplum在企業的正确使用姿勢

阿裡雲的使用者可以購買sata+ssd混合存儲的greenplum,以非常高的成本效益獲得pb級的資料倉庫(公測階段隻提供純ssd的版本)。

使用者可以使用etl工具,或者mysql2pgsql, pgsql2pgsql将資料增量或全量的從mysql或pgsql同步到greenplum。

成熟的分析任務可以跑在這個大的greenplum數倉上面。

另外,分析人員要資料分析模型試錯的話,可以将資料模型分析試錯的樣本資料導出到oss。 greenplum或者rds pg可以通過oss外部表直接通路試錯資料,進行分析。

etl可以選擇阿裡雲市場中的etl服務或者使用者自己使用開源的etl工具,都是非常友善的。

如果試錯的資料量(樣本資料)在百gb的規模,建議可以直接使用rds pg

。 9.6還會推出cpu并行計算的功能,處理百gb毫無壓力。 資料模型分析試錯資料再大一點的話,建議還是購買小型的greenplum。

這樣就可以做到跑成熟的資料分析模型,試錯兩不誤。

如果使用者 為了節約成本一定要将成熟模型和試錯放到一個資料倉庫來跑的話,如果你不想因為任務跑不出來被老闆批,建議錯開任務的時間。

三張圖讀懂Greenplum在企業的正确使用姿勢

正确使用數倉(不管是greenplum還是其他的數倉),必須要搞清楚跑成熟任務和分析人員模型試錯是不要混到一起跑的,互相幹擾,時間還漫長。 分析人員很貴的,多加幾台機器,把模型試錯和成熟任務分開,可以給分析人員靈活的發揮空間,又不耽誤跑成熟模型,何樂不為呢。

祝大家玩得開心,歡迎随時來阿裡雲促膝長談業務需求 ,恭候光臨。

阿裡雲的小夥伴們加油,努力做 最貼地氣的雲資料庫 。

繼續閱讀