天天看點

python3 編寫簡單的掃描相同檔案工具

雙十一 又快到了,我打算那天買過移動硬碟,因為電腦320G硬碟實在太小,再加上電腦沒常整理,硬碟内的什麼,圖檔、視訊、文檔、腳本等等也是特别的多。是以想先寫個腳本吧重複的檔案給找出來。

其實在我去年我也寫過這腳本,是以我馬上找到了之前的代碼(

https://www.oschina.net/code/snippet_2558914_54344 ),但感覺代碼有些可以優化的地方是以今天又拿出來了。

掃描系統檔案代碼:

import hashlib, os,threading,time

_errList=[]#存放錯誤路徑清單 
_equalFlags={}#存放相同資料

_skipDir=["node_modules"]#跳過目錄名
_skipFile=["index.js"]#跳過檔案名
_dirCount=0#目錄數量統計
_fileCount=0#檔案數量統計

_paths=["E:\\"]#需要被掃描的路徑 使用絕對路徑

def filters(path,isFile,size=0):
    #自定義過濾内容 比如 大小,字尾正則比對等
    pass

def getFileMd5(files):#擷取Md5
    srcl=open(files,'rb')
    m2 = hashlib.md5()   
    m2.update(srcl.read())
    srcl.close()
    return m2.hexdigest()
 
def getFilesize(path):#用遞歸的方式周遊檔案夾
    global _dirCount,_fileCount
    try:
        if os.path.isdir(path): 
            filters(path,False)
            _dirCount=_dirCount+1
            files = os.listdir(path)
            for f in files: 
                p=path + "/" + f
                if f in _skipDir or f in _skipFile:
                    print("跳過:"+p)
                    continue
                getFilesize(p)
        else: 
            size=os.path.getsize(path)
            md5=getFileMd5(path)
            flag=str(md5)+"--"+str(size)#就這樣當做辨別吧
            filters(path,True,size)
            _fileCount=_fileCount+1
            if not ( flag in _equalFlags.keys()):
                _equalFlags[flag] = []
            mtime = time.ctime(os.path.getmtime(path))
            ctime = time.ctime(os.path.getctime(path))
            _equalFlags[flag].append({"name":os.path.basename(path),"size":size,"path":path,"mtime":mtime,"ctime":ctime,"md5":md5})  
    except Exception as e:
        print(e)
        _errList.append(path)

counter_lock = threading.Lock()#線程鎖
_isScanFinish=False#是否掃描結束

def scanPath():
    global _isScanFinish,_paths
    for path in _paths:
        print("目前掃描目錄:",path)
        getFilesize(path)
    _isScanFinish=True


t=threading.Thread(target = scanPath,)#建立掃描線程
print("===>掃描開始!!")
_startClock =time.time()#擷取開始時間
t.start()#開始線程

while not _isScanFinish:
    counter_lock.acquire()
    print("已掃描目錄:",_dirCount,"  已掃描檔案:",_fileCount," 掃描失敗:",len(_errList))
    counter_lock.release()
    time.sleep(2)
_endClock =time.time()#擷取結束時間
print("===>掃描結束!!"," 用時",str(_endClock-_startClock)+"秒") 


'''
'如果你想檢視結果那你可以用以下代碼輸出
'(也可以在此對重複檔案進行處理操作)
'''
print("|檔案名|完整路徑|大小|建立時間|修改時間|MD5|")
print("| -------- |-------- |-------- |-------- |-------- |-------- |")


for key in _equalFlags.keys():
    itms=_equalFlags[key]
    if len(itms)>1: 
        for itm in itms:
            print("|",itm["name"],"|",itm["path"],"|",itm["size"],"|",itm["ctime"],"|",itm["mtime"],"|",itm["md5"],"|")


'''
'如果想将掃描結果資訊導出
'你可以這樣做:
'''
import codecs
import json
import datetime

def getNowDate(): #擷取時間
    return  str(datetime.datetime.now().strftime('%Y-%m-%dT%H.%M.%S'))

def wrTxt(path,text):#寫入txt
    f= codecs.open(path,'w',"utf-8") 
    f.write(text)
    f.close()

def wrJson(path,jsonData):#寫入json檔案
    wrTxt(path,json.dumps(jsonData,ensure_ascii=False))

wrJson("./掃描結果-"+getNowDate()+".json",_equalFlags)
wrJson("./錯誤結果-"+getNowDate()+".json",_errList) 
           
python3 編寫簡單的掃描相同檔案工具

效果

處理相同檔案示例:

處理相同檔案的方法很多,

比如:對于同一目錄的子檔案的話,操作很簡單,直接删除;

對于不同目錄的子檔案就要具體情況具體分析了

這裡拿對于同一目錄不同命的重複檔案進行直接删除到資源回收筒的操作

首先 安裝

send2trash

(づ●─●)づ 注意是删除到資源回收筒 而不是直接删除,以防萬一嘛!

當然你想直接删除或移動到某個目錄都可以的。

import codecs
import json 
from send2trash import send2trash

def rdJson(src, dm='utf-8'):  # <===讀取json 
    bfile = codecs.open(src, 'r', dm)
    text = bfile.read()
    bfile.close()
    if text.startswith(u'\ufeff'):
        text = text.encode('utf8')[3:].decode('utf8')
    return json.loads(text)
 


data=rdJson("掃描結果-XXXX.json")#讀取到的資料
for key in data.keys():
    itms=data[key]
    itmslen=len(itms)
    if len(itms)>1: 
        for i in range(0,(itmslen-1)):
            p=itms[i]['path']
            print(p)  
            send2trash(p) #<====移動到資源回收筒