Python 檔案讀取的不同方法比對

2017-05-15 23:50:00

Python 讀檔案的方式多種多樣，但是當需要讀取一個大檔案的時候，不同的讀取方式會有不一樣的效果。

場景

逐行讀取一個 2.9G 的大檔案

CPU i7 6820HQ
RAM 32G

方法

對每一行的讀取進行一次分割字元串操作

以下方法都使用 with...as 方法打開檔案。

with 語句适用于對資源進行通路的場合，確定不管使用過程中是否發生異常都會執行必要的“清理”操作，釋放資源，比如檔案使用後自動關閉、線程中鎖的自動擷取和釋放等。

方法一最通用的讀檔案方式

with open(file, 'r') as fh:
  for line in fh.readlines():
    line.split("|")

運作結果：耗時 15.4346568584 秒

系統螢幕中顯示記憶體從 4.8G 一下子飙到了 8.4G， fh.readlines() 将讀取的所有行資料存到記憶體，這種方法适合小檔案。

方法二

with open(file, 'r') as fh:
  line = fh.readline()
  while line:
    line.split("|")

運作結果：耗時 22.3531990051 秒

記憶體幾乎沒有變化，因為記憶體中隻存取一行的資料，但是時間明顯比上一次的長，對于進一步處理資料來說效率不高。

方法三

with open(file) as fh:
  for line in fh:
    line.split("|")

運作結果：耗時 13.9956979752 秒

記憶體幾乎沒有變化，速度也比方法二快。

for line in fh 将檔案對象 fh 視為可疊代的，它自動使用緩沖的 IO 和記憶體管理，是以您不必擔心大檔案。這是很 pythonic 的方式！

方法四 fileinput 子產品

for line in fileinput.input(file):
  line.split("|")

運作結果：耗時 26.1103110313 秒

記憶體增加了 200-300 MB，速度是以上最慢的。

總結

以上方法僅供參考，公認的大檔案讀取方法還是三最好。但是具體情況還是要根據機器的性能、處理資料的複雜度。

原文位址：

Python 檔案讀取的不同方法比對

我的部落格：

時空路由器

Python 檔案讀取的不同方法比對

場景

方法

方法一最通用的讀檔案方式

方法二

方法三

方法四 fileinput 子產品

總結

繼續閱讀

來自python的【條件控制/語句循環/break/continue/else/pass】一、條件控制二、語句循環

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入

Python 檔案讀取的不同方法比對

場景

方法

方法一 最通用的讀檔案方式

方法二

方法三

方法四 fileinput 子產品

總結

繼續閱讀

方法一最通用的讀檔案方式