Atitit.論垃圾檔案的識别與清理 文檔類型垃圾檔案 與api概要設計pa6.doc
1. 倆個問題::識别垃圾檔案與清理政策1
1.1. 檔案類型:pic,doc,v,m cc,isho pose,prj,codelib,doc mana(inputmethod,acc)1
2. 如何識别垃圾檔案2
2.1. 體積過小檔案2
2.2. 過大檔案2
2.3. 清理非文檔類型(doc docx txt html )的檔案2
2.4. 轉換檔案類型以及索引html即可2
2.5. 清理重複檔案(此結果不能加入指紋庫)2
2.6. 非本類别垃圾檔案2
3. 誤删除的檔案專門集中放在xx_manu檔案夾中,人工處理2
4. 垃圾圖檔檔案指紋庫3
4.1. 根據垃圾檔案指紋庫(模式結果固化)3
4.2. 根據垃圾檔案路徑名稱庫(加快性能比對速度,md5可能比較慢)3
5. 人工識别垃圾圖檔政策3
6. 清理政策3
7. 大概每年doc文檔的規模300M3
8. Code3
8.1. 檔案去重4
8.2. 生成垃圾檔案指紋庫(by Md5)4
1. 倆個問題::識别垃圾檔案與清理政策
1.1. 檔案類型:pic,doc,v,m cc,isho pose,prj,codelib,doc mana(inputmethod,acc)
作者:: 老哇的爪子 Attilax 艾龍,
2. 如何識别垃圾檔案
2.1. 體積過小檔案
2.2. 過大檔案
2.3. 清理非文檔類型(doc docx txt html )的檔案
Pic(gif,jpg,bmp,gif)
Js
2.4. 轉換檔案類型以及索引html即可
2.5. 清理重複檔案(此結果不能加入指紋庫)
2.6. 非本類别垃圾檔案
搜尋×,按照擴充名分組排序
3. 誤删除的檔案專門集中放在xx_manu檔案夾中,人工處理
4. 垃圾圖檔檔案指紋庫
4.1. 根據垃圾檔案指紋庫(模式結果固化)
4.2. 根據垃圾檔案路徑名稱庫(加快性能比對速度,md5可能比較慢)
5. 人工識别垃圾圖檔政策
不好的isho
不能like的pic
誤删除的檔案專門集中放在isho_manu檔案夾中,人工處理
6. 清理政策
生成清理腳本(或者直接java程式模式)
移動到制定檔案夾(推薦)
7. 大概每年doc文檔的規模300M
8. Code
AtibrowPrj
public class ClrerPicClrer extends ClrerAbs {
public static void main(String[] args) {
ClrerPicClrer c=new ClrerPicClrer();
c.dir="d:\\ati\\isheo";
//c.GabFileRecongers.add(new NoPicReconer());
tooMiniPixPicClrerPartImp ClrerPartImp = new tooMiniPixPicClrerPartImp();
ClrerPartImp.dir=c.dir;
ClrerPartImp.targetDir="d:\\ati\\tooMiniPixPic_files";
c.IClrerParts.add(ClrerPartImp);
tooMinSizePicClrerPartImp tmsc=new tooMinSizePicClrerPartImp();
tmsc.dir=c.dir;
tmsc.targetDir="d:/ati/tooMinSize_files";
c.IClrerParts.add(tmsc);
c.traveDir(c.dir);
System.out.println("--f");
}
8.1. 檔案去重
DeduliAbs_ByMoveToNewFolder.java
8.2. 生成垃圾檔案指紋庫(by Md5)
com.attilax.clr.ClrByMd5 -gene -output_file "d:\ati\isho_gabFileMd5.txt" -dir "d:\ati\gabFilesFingers"