python讀寫檔案的api都很簡單,一不留神就容易踩”坑“。筆者記錄一次踩坑曆程,并且給了一些總結,希望到大家在使用python的過程之中,能夠避免一些可能産生隐患的代碼。
1.read()與readlines():
随手搜尋python讀寫檔案的教程,很經常看到read()與readlines()這對函數。是以我們會常常看到如下代碼:
with open(file_path, 'rb') as f:
sha1Obj.update(f.read())
or
with open(file_path, 'rb') as f:
for line in f.readlines():
print(line)
這對方法在讀取小檔案時确實不會産生什麼異常,但是一旦讀取大檔案,很容易會産生MemoryError,也就是記憶體溢出的問題。
####Why Memory Error?
我們首先來看看這兩個方法:
當預設參數size=-1時,read方法會讀取直到EOF,當檔案大小大于可用記憶體時,自然會發生記憶體溢出的錯誤。
同樣的,readlines會構造一個list。list而不是iter,是以所有的内容都會儲存在記憶體之上,同樣也會發生記憶體溢出的錯誤。
2.正确的用法:
在實際運作的系統之中如果寫出上述代碼是十分危險的,這種”坑“十分隐蔽。是以接下來我們來了解一下正确用,正确的用法也很簡單,依照API之中對函數的描述來進行對應的編碼就OK了:
如果是二進制檔案推薦用如下這種寫法,可以自己指定緩沖區有多少byte。顯然緩沖區越大,讀取速度越快。
with open(file_path, 'rb') as f:
while True:
buf = f.read(1024)
if buf:
sha1Obj.update(buf)
else:
break
而如果是文本檔案,則可以用readline方法或直接疊代檔案(python這裡封裝了一個文法糖,二者的内生邏輯一緻,不過顯然疊代檔案的寫法更pythonic )每次讀取一行,效率是比較低的。筆者簡單測試了一下,在3G檔案之下,大概性能和前者差了20%.
with open(file_path, 'rb') as f:
while True:
line = f.readline()
if buf:
print(line)
else:
break
with open(file_path, 'rb') as f:
for line in f:
print(line)
3.記憶體檢測工具的介紹:
對于python代碼的記憶體占用問題,對于代碼進行記憶體監控十分必要。這裡筆者這裡推薦兩個小工具來檢測python代碼的記憶體占用。
####memory_profiler
首先先用pip安裝memory_profiler
pip install memory_profiler
memory_profiler是利用python的裝飾器工作的,是以我們需要在進行測試的函數上添加裝飾器。
from hashlib import sha1
import sys
@profile
def my_func():
sha1Obj = sha1()
with open(sys.argv[1], 'rb') as f:
while True:
buf = f.read(10 * 1024 * 1024)
if buf:
sha1Obj.update(buf)
else:
break
print(sha1Obj.hexdigest())
if __name__ == '__main__':
my_func()
之後在運作代碼時加上 -m memory_profiler
就可以了解函數每一步代碼的記憶體占用了
guppy
依樣畫葫蘆,仍然是通過pip先安裝guppy
pip install guppy
之後可以在代碼之中利用guppy直接列印出對應各種python類型(list、tuple、dict等)分别建立了多少對象,占用了多少記憶體。
from guppy import hpy
import sys
def my_func():
mem = hpy()
with open(sys.argv[1], 'rb') as f:
while True:
buf = f.read(10 * 1024 * 1024)
if buf:
print(mem.heap())
else:
break
如下圖所示,可以看到列印出對應的記憶體占用資料:
通過上述兩種工具guppy與memory_profiler可以很好地來監控python代碼運作時的記憶體占用問題。
4.小結:
python是一門崇尚簡潔的語言,但是正是因為它的簡潔反而更多了許多需要仔細推敲和思考的細節。希望大家在日常工作與學習之中也能多對一些細節進行總結,少踩一些不必要的“坑”。