開發者學堂課程【Hadoop 分布式計算架構 MapReduce:壓縮概述】學習筆記,與課程緊密聯系,讓使用者快速學習知識。
課程位址:
https://developer.aliyun.com/learning/course/94/detail/1556壓縮概述
内容介紹:
一、壓縮概述
二、壓縮政策
三、壓縮的基本原則
壓縮技術能夠有效減少底層存儲系統 (HDFS )讀寫位元組數。壓縮提高了網絡帶寬和磁盤空間的效率。
在運作 MR 程式時,IO 操作、網絡資料傳輸、Shuffle 和 Merge 要花大量的時間,尤其是資料規模很大和工作負載密集的情況下,是以,使用資料壓縮顯得非常重要。
鑒于磁盤 I/O 和網絡帶寬是 Hadoop 的寶貴資源,資料壓縮對于節省資源、最小化磁盤 I/O 和網絡傳輸非常有幫助。可以在任意 MapReduce 階段啟用壓縮。不過、盡管壓縮與解壓操作的 CPU 開銷不高,其性能的提升和資源的節省并非沒有代價。
二、壓縮政策
壓縮是提高 Hadoop 運作效率的一種優化政策。
通過對 Mapper、Reducer 運作過程的資料進行壓縮,以減少磁盤 IO ,提高 MR 程式運作速度。
注意:采用壓縮技術減少了磁盤 IO,但同時增加了 CPU 運算負擔。是以,壓縮特性運用得當能提高性能,但運用不當也可能降低性能。
(1)運算密集型的 job,少用壓縮
(2)IO 密集型的 job,多用壓縮