大資料與機器學習：實踐方法與行業案例.2.6　本章小結

2021-11-08 02:14:51

本章圍繞資料體系提出了資料閉環的概念，對資料閉環的特征進行了描述，并且進一步介紹了建構資料閉環所涉及的方法和技術。

這裡着重介紹了在資料閉環中扮演重要作用的“資料緩沖區”的設立理念和實作方式。通過設立資料緩沖區，可以實作系統解耦，讓資料閉環具備良好的擴充性，讓公司組織間職責更加分明，使資料環境更加安全等。

資料緩沖區中涉及的資料批量導出/導入技術，需要使用到各個rdms系統的批量操作指令。另外在大資料平台中，需要使用hadoop shell和hive shell腳本來實作批量操作，對于hbase，則提供了java實作的bulk load批量導入方式。

etl作業為資料閉環中定義資料流轉方式的環節。為了實作etl作業的自動化運作和監控，需要引入etl作業規範：命名規範和日志規範。

作業排程則是保證etl作業能夠實作自動化的手段，監控和預警則進一步保證了etl作業能夠正常運作。

第3章将根據這兩章提出的資料理念，通過實戰的方式完成資料閉環中關鍵環節的建構。

繼續閱讀