天天看點

如何從0到1開始做大資料治理(下)04 資料治理的實施05 資料治理的步驟06 資料治理的效果驗證

如何從0到1開始做大資料治理(下)04 資料治理的實施05 資料治理的步驟06 資料治理的效果驗證

作者介紹

@Super超

空間計算與城市大資料

塑造未來的科幻迷

持續更新大資料與資料科學系列

上篇講了大資料治理的背景、目标、核心,本篇進入實踐環節,聊聊具體如何實施大資料治理、大資料治理的步驟及效果驗證。

04 資料治理的實施

  1. 存儲優化

資料膨脹是大資料治理最先要解決的問題,它直接關系到成本問題,解法是進行存儲優化,也就是設計規範化的存儲政策,提高資料的共享程度。

從空間方面思考:

第一個關鍵詞是合并,即合并備援表。一方面是掃描資料表的依賴關系,上遊表相似,表字段也相似,判斷可能是備援表,隻留一個。另一方面把高度重合的表合并,從小表變大表。

第二個關鍵詞是舍棄,即舍棄備援字段。有些字段并沒有多大存儲意義,或者可以從其他來源處擷取,可以從資料表中剔除。

第三個關鍵詞是拆分,即内容壓縮。例如通過一個資料壓縮節點把大json字段拆分成幾個内容字段,把格式相關的部分舍棄,需要還原的時候再通過資料解壓縮節點逆向還原回來。平均可帶來30%的存儲空間釋放。

從時間方面思考

第一個關鍵詞是生命周期。合理規劃資料的生命周期,不同層的資料保留時間不一樣。有的需要永久儲存,有的不需要永久儲存。

第二個關鍵詞是冷熱。對于那些暫時沒有業務調用的冷資料,壓縮歸檔。

如何從0到1開始做大資料治理(下)04 資料治理的實施05 資料治理的步驟06 資料治理的效果驗證

除了通用化的政策外,不同行業,不同類型的資料還有自身特性化的治理政策。例如裝置在某一個位置停留時間過久,回傳了大量的重複坐标。

  1. 計算優化

計算優化的目的一是節省運算資源,二是提高資料加工處理的速度,縮短資料生産周期。

第一個優化點是避免在異常資料上浪費算力。有些資料雖然格式上沒有問題,但實際上根據業務場景的定義是異常的,可以忽略。還例如某個裝置是故障的,将它識别出來後它所産生的資料都不再參與計算。

第二個優化點是識别并應對資料傾斜。所謂資料傾斜有兩種情況,一種是某一塊區域的資料大于其他區域,另一種是某一些資料的大小要遠遠大于平均值。對存在資料傾斜的部分進一步分割,可以加速計算。

第三個優化點是提升核心UDF的性能。UDF 的性能很大程度上決定了處理流程的時間長短。通過代碼審查,找出性能可以優化的節點進行代碼優化。另外,将Python的UDF改成Java的UDF也可以提升一部分性能。

第四個優化點是引擎配置調優,例如開啟資料壓縮傳輸、合理設定map/reduce數、合理應用Hash/Range Cluster索引機制等。

第五個優化點是将MR streaming節點改寫為SELECT TRANSFORM方式。SELECT TRANSFORM的性能很好,而且也更靈活,能夠提高計算節點的可擴充性。

【拓展】SELECT TRANSFORM介紹

很多時候我們面對的是這麼一種場景,SQL内置的函數不能支援把資料A變成資料B的功能,是以我們用一個腳本來實作,而我們又想讓它分布式的執行。這樣的場景可以用使用SELECT TRANSFORM來實作。

SELECT TRANSFORM功能允許SQL使用者指定啟動一個子程序,将輸入資料按照一定的格式通過stdin輸入子程序,并且通過解析子程序的stdout輸出來擷取輸出資料。SELECT TRANSFORM非常靈活,不僅支援java和python,還支援shell,perl等其它腳本和工具。

  1. 工具提效

大資料治理需要牽扯到大量的表和節點上線、下線、測試、添加監控等,如果每個環節都需要人工操作,都要耗費很多人力,是以使用一些自動化和半自動工具可以顯著提高效率,減少人工成本。

主要涉及到了資料比對工具、節點批量下線工具、自動化測試工具等。

05 資料治理的步驟

大資料治理與業務的正常發展是同步進行的,這就需要一個平滑的過渡過程。

  1. 增量資料灰階平遷

    這一步的作用是驗證經過治理後的資料是下遊資料應用方可以正常使用的,可以滿足業務方使用資料的需求。主要需要解決好新舊資料表字段映射、字段擴充後資料補錄等問題。

業務的遷移按照灰階原則,先遷業務輕體量小的,後遷業務重體量大的。分批次遷移之後持續跟蹤、分析資料波動情況,一旦發現問題及早修複,以保障資料品質的可靠性。

  1. 存量資料遷移

在增量資料上驗證通過後,下一步就是遷移存量資料了。這一步需要關注的是存儲空間的問題,一次性增加太多的新資料存儲,舊資料來不及釋放,會使得存儲壓力大增。

如何從0到1開始做大資料治理(下)04 資料治理的實施05 資料治理的步驟06 資料治理的效果驗證

06 資料治理的效果驗證

大資料治理的效果展現在資料存儲成本是否降低、資料産出周期是否縮短、資料品質是否提高、資料量增長勢頭是否減緩等方面。

總結

大資料治理的過程是一個很好的梳理現有業務的機會。一次成功的資料治理不僅給企業帶來成本、效能上的改善,還鍛煉了資料團隊,為資料價值體系建設奠定了基礎。

一個資料人的自留地是一個助力資料人成長的大家庭,幫助對資料感興趣的夥伴們明确學習方向、精準提升技能。關注我,帶你探索資料的神奇奧秘

1、回“資料産品”,擷取<大廠資料産品面試題>

繼續閱讀