天天看點

壓縮概述 | 學習筆記

開發者學堂課程【Hadoop 分布式計算架構 MapReduce:壓縮概述】學習筆記,與課程緊密聯系,讓使用者快速學習知識。

課程位址:

https://developer.aliyun.com/learning/course/94/detail/1556

壓縮概述

内容介紹:

一、壓縮概述

二、壓縮政策

三、壓縮的基本原則

壓縮技術能夠有效減少底層存儲系統 (HDFS )讀寫位元組數。壓縮提高了網絡帶寬和磁盤空間的效率。

在運作 MR 程式時,IO 操作、網絡資料傳輸、Shuffle 和 Merge 要花大量的時間,尤其是資料規模很大和工作負載密集的情況下,是以,使用資料壓縮顯得非常重要。

鑒于磁盤 I/O 和網絡帶寬是 Hadoop 的寶貴資源,資料壓縮對于節省資源、最小化磁盤 I/O 和網絡傳輸非常有幫助。可以在任意 MapReduce 階段啟用壓縮。不過、盡管壓縮與解壓操作的 CPU 開銷不高,其性能的提升和資源的節省并非沒有代價。

二、壓縮政策

壓縮是提高 Hadoop 運作效率的一種優化政策。

通過對 Mapper、Reducer 運作過程的資料進行壓縮,以減少磁盤 IO ,提高 MR 程式運作速度。

注意:采用壓縮技術減少了磁盤 IO,但同時增加了 CPU 運算負擔。是以,壓縮特性運用得當能提高性能,但運用不當也可能降低性能。

(1)運算密集型的 job,少用壓縮

(2)IO 密集型的 job,多用壓縮

繼續閱讀