天天看點

Atitit.論垃圾檔案的識别與清理 文檔類型垃圾檔案 與api概要設計pa6.doc

Atitit.論垃圾檔案的識别與清理 文檔類型垃圾檔案 與api概要設計pa6.doc

1. 倆個問題::識别垃圾檔案與清理政策1

1.1. 檔案類型:pic,doc,v,m cc,isho pose,prj,codelib,doc mana(inputmethod,acc)1

2. 如何識别垃圾檔案2

2.1. 體積過小檔案2

2.2. 過大檔案2

2.3. 清理非文檔類型(doc docx txt html )的檔案2

2.4. 轉換檔案類型以及索引html即可2

2.5. 清理重複檔案(此結果不能加入指紋庫)2

2.6. 非本類别垃圾檔案2

3. 誤删除的檔案專門集中放在xx_manu檔案夾中,人工處理2

4. 垃圾圖檔檔案指紋庫3

4.1. 根據垃圾檔案指紋庫(模式結果固化)3

4.2. 根據垃圾檔案路徑名稱庫(加快性能比對速度,md5可能比較慢)3

5. 人工識别垃圾圖檔政策3

6. 清理政策3

7. 大概每年doc文檔的規模300M3

8. Code3

8.1. 檔案去重4

8.2. 生成垃圾檔案指紋庫(by Md5)4

1. 倆個問題::識别垃圾檔案與清理政策

1.1. 檔案類型:pic,doc,v,m cc,isho pose,prj,codelib,doc mana(inputmethod,acc)

作者:: 老哇的爪子 Attilax 艾龍, 

2. 如何識别垃圾檔案

2.1. 體積過小檔案

2.2. 過大檔案

2.3. 清理非文檔類型(doc docx txt html )的檔案

Pic(gif,jpg,bmp,gif)

Js 

2.4. 轉換檔案類型以及索引html即可

2.5.  清理重複檔案(此結果不能加入指紋庫)

2.6. 非本類别垃圾檔案

搜尋×,按照擴充名分組排序

3. 誤删除的檔案專門集中放在xx_manu檔案夾中,人工處理

4. 垃圾圖檔檔案指紋庫

4.1. 根據垃圾檔案指紋庫(模式結果固化)

4.2. 根據垃圾檔案路徑名稱庫(加快性能比對速度,md5可能比較慢)

5. 人工識别垃圾圖檔政策

不好的isho

不能like的pic

誤删除的檔案專門集中放在isho_manu檔案夾中,人工處理

6. 清理政策

生成清理腳本(或者直接java程式模式)

移動到制定檔案夾(推薦)

7. 大概每年doc文檔的規模300M

8. Code

AtibrowPrj

public class ClrerPicClrer extends ClrerAbs {

public static void main(String[] args) {

ClrerPicClrer c=new ClrerPicClrer();

c.dir="d:\\ati\\isheo";

//c.GabFileRecongers.add(new NoPicReconer());

tooMiniPixPicClrerPartImp ClrerPartImp = new tooMiniPixPicClrerPartImp();

ClrerPartImp.dir=c.dir;

ClrerPartImp.targetDir="d:\\ati\\tooMiniPixPic_files";

c.IClrerParts.add(ClrerPartImp);

tooMinSizePicClrerPartImp tmsc=new tooMinSizePicClrerPartImp();

tmsc.dir=c.dir;

tmsc.targetDir="d:/ati/tooMinSize_files";

c.IClrerParts.add(tmsc);

c.traveDir(c.dir);

System.out.println("--f");

}

8.1. 檔案去重

DeduliAbs_ByMoveToNewFolder.java

8.2. 生成垃圾檔案指紋庫(by Md5)

 com.attilax.clr.ClrByMd5  -gene -output_file "d:\ati\isho_gabFileMd5.txt" -dir "d:\ati\gabFilesFingers"