目錄:
1、将HDFS備份數降低
2、删除無用HDFS資料和Hbase表格
3、設定kafka的日志時間
4、删除本機無用檔案
5、清理Trash資源回收筒
6、Balancer重新平衡
7、Cloudera監控日志清理
8、檢視一級目錄大小
1、将備份數降低
1)将預設的備份數3設定為2。
步鄹:CDH–>HDFS–>配置–>複制因子–>設定為2
![](https://img.laitimes.com/img/9ZDMuAjOiMmIsIjOiQnIsISPrdEZwZ1Rh5WNXp1bwNjW1ZUba9VZwlHdsATOfd3bkFGazxCMx8VesATMfhHLlN3XnxCMwEzX0xiRGZkRGZ0Xy9GbvNGLpZTY1EmMZVDUSFTU4VFRR9Fd4VGdsYTMfVmepNHLrJXYtJXZ0F2dvwVZnFWbp1zczV2YvJHctM3cv1Ce-cmbw5CNwMDN5MTY0MjNyEWMmdjNxYzX4EDMwcTM0EzLcBTMxIDMy8CXn9Gbi9CXzV2Zh1WavwVbvNmLvR3YxUjLzM3Lc9CX6MHc0RHaiojIsJye.png)
2)執行指令: hadoop fs -setrep 2 path(記住為根目錄 / )
3)重新開機hdfs
4)結果如下:
hdfs dfs -du -h /
可以删除的檔案
hdfs dfs -du -h /user/spark/applicationHistory
hdfs dfs -rmr /user/root/.Trash
下面是我寫的一個shell腳本,可以檢視所有目錄和檔案的大小,将大的無用檔案删除
#!/bin/bash
path=$1
dir=$(ls -l $path |awk '/^d/ {print $NF}')
for i in $dir
do
du -sh $path/$i
done
HDFS 的Trash資源回收筒功能的配置、使用
6、Balancer重新平衡
1)叢集運作一段時間後各個節點的磁盤使用率可能會産生較大的差異,這時可以用balancer來重新平衡各個節點。
2)首先調大balancer的帶寬 Hadoop dfsadmin -setBalancerBandwidth 52428800 ,這裡設定為50MB。預設的帶寬較小,防止占用太多資源。若需要快速平衡可以将帶寬調為一個較大的值。
3)接着啟動balancer。可以在CM裡啟動(hdfs-balancer-示例-操作-重新平衡),也可以指令啟動(hadoop balancer [-threshold ])。
裝cm的機器:/var/lib 路徑下有如下檔案:有時候根目錄空間不夠
解決方法一:主要清理cloudera-host-monitor 、cloudera-service-monitor
這兩個檔案下子目錄帶ts兩個字母的目錄下都會有partitions,直接清掉就ok
例:subject_ts、ts_subject、ts等帶有ts的目錄(慎重啊)
解決方法二:firehose.storage.base.directory,将路徑設定到其餘檔案下
du -h --max-depth=1 /