Python讀取大檔案的"坑“與記憶體占用檢測

python讀寫檔案的api都很簡單，一不留神就容易踩”坑“。筆者記錄一次踩坑曆程，并且給了一些總結，希望到大家在使用python的過程之中，能夠避免一些可能産生隐患的代碼。

1.read()與readlines()：

随手搜尋python讀寫檔案的教程，很經常看到read()與readlines()這對函數。是以我們會常常看到如下代碼：

with open(file_path, 'rb') as f:
    sha1Obj.update(f.read())

with open(file_path, 'rb') as f:
    for line in f.readlines():
        print(line)

這對方法在讀取小檔案時确實不會産生什麼異常，但是一旦讀取大檔案，很容易會産生MemoryError，也就是記憶體溢出的問題。

####Why Memory Error？

我們首先來看看這兩個方法：

當預設參數size=-1時，read方法會讀取直到EOF，當檔案大小大于可用記憶體時，自然會發生記憶體溢出的錯誤。

同樣的，readlines會構造一個list。list而不是iter，是以所有的内容都會儲存在記憶體之上，同樣也會發生記憶體溢出的錯誤。

2.正确的用法：

在實際運作的系統之中如果寫出上述代碼是十分危險的，這種”坑“十分隐蔽。是以接下來我們來了解一下正确用，正确的用法也很簡單，依照API之中對函數的描述來進行對應的編碼就OK了：

如果是二進制檔案推薦用如下這種寫法，可以自己指定緩沖區有多少byte。顯然緩沖區越大，讀取速度越快。

with open(file_path, 'rb') as f:
    while True:
        buf = f.read(1024)
        if buf:    
            sha1Obj.update(buf)
        else:
            break

而如果是文本檔案，則可以用readline方法或直接疊代檔案（python這裡封裝了一個文法糖，二者的内生邏輯一緻，不過顯然疊代檔案的寫法更pythonic ）每次讀取一行，效率是比較低的。筆者簡單測試了一下，在3G檔案之下，大概性能和前者差了20%.

with open(file_path, 'rb') as f:
    while True:
        line = f.readline()
        if buf:    
            print(line)
        else:
            break

with open(file_path, 'rb') as f:
    for line in f:
        print(line)

3.記憶體檢測工具的介紹：

對于python代碼的記憶體占用問題，對于代碼進行記憶體監控十分必要。這裡筆者這裡推薦兩個小工具來檢測python代碼的記憶體占用。

####memory_profiler

首先先用pip安裝memory_profiler

pip install memory_profiler

memory_profiler是利用python的裝飾器工作的，是以我們需要在進行測試的函數上添加裝飾器。

from hashlib import sha1
import sys

@profile
def my_func():
    sha1Obj = sha1()
    with open(sys.argv[1], 'rb') as f:
        while True:
            buf = f.read(10 * 1024 * 1024)
            if buf:
                sha1Obj.update(buf)
            else:
                break

    print(sha1Obj.hexdigest())


if __name__ == '__main__':
    my_func()

之後在運作代碼時加上 -m memory_profiler

就可以了解函數每一步代碼的記憶體占用了

guppy

依樣畫葫蘆，仍然是通過pip先安裝guppy

pip install guppy

之後可以在代碼之中利用guppy直接列印出對應各種python類型（list、tuple、dict等）分别建立了多少對象，占用了多少記憶體。

from guppy import hpy
import sys


def my_func():
    mem = hpy()
    with open(sys.argv[1], 'rb') as f:
        while True:
            buf = f.read(10 * 1024 * 1024)
            if buf:
                print(mem.heap())
            else:
                break

如下圖所示，可以看到列印出對應的記憶體占用資料：

通過上述兩種工具guppy與memory_profiler可以很好地來監控python代碼運作時的記憶體占用問題。

4.小結：

python是一門崇尚簡潔的語言，但是正是因為它的簡潔反而更多了許多需要仔細推敲和思考的細節。希望大家在日常工作與學習之中也能多對一些細節進行總結，少踩一些不必要的“坑”。

Python讀取大檔案的"坑“與記憶體占用檢測

1.read()與readlines()：

2.正确的用法：

3.記憶體檢測工具的介紹：

guppy

4.小結：

繼續閱讀

來自python的【條件控制/語句循環/break/continue/else/pass】一、條件控制二、語句循環

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入