Python 讀取大檔案

2022-07-29 10:58:43

簡述

在處理大資料時，有可能會碰到好幾個 G 大小的檔案。如果通過一些工具（例如：NotePad++）打開它，會發生錯誤，無法讀取任何内容。

那麼，在 Python 中，如何快速地讀取這些大檔案呢？

一般的讀取

讀取檔案，最常見的方式是：

with open('filename', 'r', encoding = 'utf-8') as f:
    for line in f.readlines():
        do_something(line)

但是，當完成這一操作時，

readlines()

方法（

read()

也一樣）會将整個檔案加載到記憶體中。在檔案較大時，往往會引發

MemoryError

（記憶體溢出）。

那麼，如何避免這個問題？

使用 fileinput 子產品

稍微好點兒的方式是使用

fileinput

子產品：

import fileinput

for line in fileinput.input(['filename']):
    do_something(line)

調用

fileinput.input()

會按照順序讀取行，但是在讀取之後不會将它們保留在記憶體中。

逐行讀取

除此之外，也可使用

while()

循環和

readline()

來逐行讀取：

with open('filename', 'r', encoding = 'utf-8') as f:
    while True:
        line = f.readline()  # 逐行讀取
        if not line:  # 到 EOF，傳回空字元串，則終止循環
            break
        do_something(line)

指定每次讀取的長度

有時，可能希望對每次讀取的内容進行更細粒度的控制。

在這種情況下，可以使用

iter

和

yield

：

def read_in_chunks(file_obj, chunk_size = 2048):
    """
    逐件讀取檔案
    預設塊大小：2KB
    """
    while True:
        data = file_obj.read(chunk_size)  # 每次讀取指定的長度
        if not data:
            break
        yield data

with open('filename', 'r', encoding = 'utf-8') as f:
    for chuck in

自動管理

with open('filename', 'r', encoding = 'utf-8') as f:
    for line in f:
        do_something(line)

Python 讀取大檔案

簡述

一般的讀取

使用 fileinput 子產品

逐行讀取

指定每次讀取的長度

自動管理

更多參考

繼續閱讀

來自python的【條件控制/語句循環/break/continue/else/pass】一、條件控制二、語句循環

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入