天天看點

CDH磁盤清理指南

目錄:

1、将HDFS備份數降低

2、删除無用HDFS資料和Hbase表格

3、設定kafka的日志時間

4、删除本機無用檔案

5、清理Trash資源回收筒

6、Balancer重新平衡

7、Cloudera監控日志清理

8、檢視一級目錄大小

1、将備份數降低

1)将預設的備份數3設定為2。

步鄹:CDH–>HDFS–>配置–>複制因子–>設定為2

CDH磁盤清理指南

2)執行指令: hadoop fs -setrep 2 path(記住為根目錄 / )

3)重新開機hdfs

4)結果如下:

CDH磁盤清理指南
檢視HDFS上面檔案每個檔案大小

hdfs dfs -du -h /      
CDH磁盤清理指南

可以删除的檔案

hdfs dfs -du -h /user/spark/applicationHistory
hdfs dfs -rmr /user/root/.Trash      
CDH磁盤清理指南

下面是我寫的一個shell腳本,可以檢視所有目錄和檔案的大小,将大的無用檔案删除

#!/bin/bash

path=$1

dir=$(ls -l $path |awk '/^d/ {print $NF}')
for i in $dir
do
du -sh $path/$i
done      
CDH磁盤清理指南
CDH磁盤清理指南

HDFS 的Trash資源回收筒功能的配置、使用

6、Balancer重新平衡 

1)叢集運作一段時間後各個節點的磁盤使用率可能會産生較大的差異,這時可以用balancer來重新平衡各個節點。

2)首先調大balancer的帶寬 Hadoop dfsadmin -setBalancerBandwidth 52428800 ,這裡設定為50MB。預設的帶寬較小,防止占用太多資源。若需要快速平衡可以将帶寬調為一個較大的值。

3)接着啟動balancer。可以在CM裡啟動(hdfs-balancer-示例-操作-重新平衡),也可以指令啟動(hadoop balancer [-threshold ])。

CDH磁盤清理指南
CDH磁盤清理指南

裝cm的機器:/var/lib 路徑下有如下檔案:有時候根目錄空間不夠

CDH磁盤清理指南
CDH磁盤清理指南

解決方法一:主要清理cloudera-host-monitor 、cloudera-service-monitor

這兩個檔案下子目錄帶ts兩個字母的目錄下都會有partitions,直接清掉就ok

例:subject_ts、ts_subject、ts等帶有ts的目錄(慎重啊)

解決方法二:firehose.storage.base.directory,将路徑設定到其餘檔案下

CDH磁盤清理指南

du -h --max-depth=1 /

繼續閱讀