天天看點

大資料與機器學習:實踐方法與行業案例.2.6 本章小結

<b>2.6 本章小結</b>

本章圍繞資料體系提出了資料閉環的概念,對資料閉環的特征進行了描述,并且進一步介紹了建構資料閉環所涉及的方法和技術。

這裡着重介紹了在資料閉環中扮演重要作用的“資料緩沖區”的設立理念和實作方式。通過設立資料緩沖區,可以實作系統解耦,讓資料閉環具備良好的擴充性,讓公司組織間職責更加分明,使資料環境更加安全等。

資料緩沖區中涉及的資料批量導出/導入技術,需要使用到各個rdms系統的批量操作指令。另外在大資料平台中,需要使用hadoop shell和hive shell腳本來實作批量操作,對于hbase,則提供了java實作的bulk load批量導入方式。

etl作業為資料閉環中定義資料流轉方式的環節。為了實作etl作業的自動化運作和監控,需要引入etl作業規範:命名規範和日志規範。

作業排程則是保證etl作業能夠實作自動化的手段,監控和預警則進一步保證了etl作業能夠正常運作。

第3章将根據這兩章提出的資料理念,通過實戰的方式完成資料閉環中關鍵環節的建構。