python pandas

處理大規模資料集時常是棘手的事情，尤其在記憶體無法完全加載資料的情況下。在資源受限的情況下，可以使用 Python Pandas 提供的一些功能，降低加載資料集的記憶體占用。可用技術包括壓縮、索引和資料分塊。

在上述過程中需要解決一些問題，其中之一就是資料量過大。如果資料量超出本機記憶體的容量，項目執行就會産生問題。

對此有哪些解決方案？

有多種解決資料量過大問題的方法。它們或是消耗時間，或是需要增加投資。

可能的解決方案

投資解決：新購有能力處理整個資料集，具有更強 CPU 和更大記憶體的計算機。或是去租用雲服務或虛拟記憶體，建立處理工作負載的叢集。

耗時解決：如果記憶體不足以處理整個資料集，而硬碟的容量要遠大于記憶體，此時可考慮使用硬碟存儲資料。但使用硬碟管理資料會大大降低處理性能，即便是 SSD 也要比記憶體慢很多。

隻要資源允許，這兩種解決方法均可行。如果項目資金充裕，或是不惜任何時間代價，那麼上述兩種方法是最簡單也是最直接的解決方案。

但如果情況并非如此呢？也許你的資金有限，或是資料集過大，從磁盤加載将增加 5~6 倍甚至更多的處理時間。是否有無需額外資金投入或時間開銷的大資料解決方案呢？

這個問題正中我的下懷。

有多種技術可用于大資料處理，它們無需額外付出投資，也不會耗費大量加載的時間。本文将介紹其中三種使用 Pandas 處理大規模資料集的技術。

壓縮

第一種技術是資料壓縮。壓縮并非指将資料打包為 ZIP 檔案，而是以壓縮格式在記憶體中存儲資料。

換句話說，資料壓縮就是一種使用更少記憶體表示資料的方法。資料壓縮有兩種類型，即無損壓縮和有損壓縮。這兩種類型隻影響資料的加載，不會影響到處理代碼。

無損壓縮

無損壓縮不會對資料造成任何損失，即原始資料和壓縮後的資料在語義上保持不變。執行無損壓縮有三種方式。在下文中，将使用美國按州統計的新冠病毒病例資料集依次介紹。

加載特定的資料列

例子中所使用的資料集具有如下結構：

import pandas as pd

data = pd.read_csv("https://raw.githubusercontent.com/nytimes/covid-19-data/master/us-counties.csv")

data.sample(10)

加載整個資料集需要占用 111MB 記憶體！

如果我們隻需要資料集中的兩列，即州名和病例數，那麼為什麼要加載整個資料集呢？加載所需的兩列資料隻需 36MB，可降低記憶體使用 32%。

使用 Pandas 加載所需資料列的代碼如下：

本節使用的代碼片段如下：

# 加載所需軟體庫 Import needed library

# 資料集

csv = "https://raw.githubusercontent.com/nytimes/covid-19-data/master/us-counties.csv"

# 加載整個資料集

data = pd.read_csv(csv)

data.info(verbose=False, memory_usage="deep")

# 建立資料子集

df = data[["county", "cases"]]

df.info(verbose=False, memory_usage="deep")

# 加速所需的兩列資料

df_2col = pd.read_csv(csv , usecols=["county", "cases"])

df_2col.info(verbose=False, memory_usage="deep")

代碼位址：

https://gist.github.com/SaraM92/3ba6cac1801b20f6de1ef3cc4a18c843#file-column_selecting-py

操作資料類型

另一個降低資料記憶體使用量的方法是截取數值項。例如将 CSV 加載到 DataFrame，如果檔案中包含數值，那麼一個數值就需要 64 個位元組存儲。但可通過使用 int 格式截取數值以節省記憶體。

int8 存儲值的範圍是 -128 到 127；

int16 存儲值的範圍是 -32768 到 32767；

int64 存儲值的範圍是 -9223372036854775808 到 9223372036854775807。

如果可預先确定數值不大于 32767，那麼就可以使用 int16 或 int32 類型，該列的記憶體占用能降低 75%。

假定每個州的病例數不超過 32767（雖然現實中并非如此），那麼就可截取該列為 int16 類型而非 int64。

稀疏列

如果資料集的一或多個列中具有大量的 NaN 空值，那麼可以使用稀疏清單示降低記憶體使用，以免空值耗費記憶體。

假定州名這一列存在一些空值，我們需要跳過所有包含空值的行。該需求可使用 pandas.sparse 輕松實作（譯者注：原文使用 Sparse Series，但在 Pandas 1.0.0 中已經移除了 SparseSeries）。

有損壓縮

如果無損壓縮并不滿足需求，還需要進一步壓縮，那麼應該如何做？這時可使用有損壓縮，權衡記憶體占用而犧牲資料百分之百的準确性。

有損壓縮有兩種方式，即修改數值和抽樣。

修改數值：有時并不需要數值保留全部精度，這時可以将 int64 截取為 int32 甚至是 int16。

抽樣：如果需要确認某些州的新冠病例數要高于其它州，可以抽樣部分州的資料，檢視哪些州具有更多的病例。這種做法是一種有損壓縮，因為其中并未考慮到所有的資料行。

第二種技術：資料分塊（chunking）

另一個處理大規模資料集的方法是資料分塊。将大規模資料切分為多個小分塊，進而對各個分塊分别處理。在處理完所有分塊後，可以比較結果并給出最終結論。

本文使用的資料集中包含了 1923 行資料。

假定我們需要找出具有最多病例的州，那麼可以将資料集切分為每塊 100 行資料，分别處理每個資料塊，從這各個小結果中擷取最大值。

本節代碼片段如下：

# 導入所需軟體庫

# 循環處理每個資料塊，擷取每個資料塊中的最大值

result = {}

for chunk in pd.read_csv(csv, chunksize=100):

max_case = chunk["cases"].max()

max_case_county = chunk.loc[chunk[ cases ] == max_case, county ].iloc[0]

result[max_case_county] = max_case

# 給出結果

print(max(result, key=result.get) , result[max(result, key=result.get)])

https://gist.github.com/SaraM92/808ed30694601e5eada5e283b2275ed7#file-chuncking-py

第三種方法：索引

資料分塊非常适用于資料集僅加載一次的情況。但如果需要多次加載資料集，那麼可以使用索引技術。

索引可了解為一本書的目錄。無需讀完整本書就可以擷取所需得資訊。

例如，分塊技術非常适用于擷取指定州的病例數。編寫如下的簡單函數，就能實作這一功能。

索引 vs 分塊

分塊需讀取所有資料，而索引隻需讀取部分資料。

上面的函數加載了每個分塊中的所有行，但我們隻關心其中的一個州，這導緻大量的額外開銷。可使用 Pandas 的資料庫操作，例如簡單的做法是使用 SQLite 資料庫。

首先，需要将 DataFrame 加載到 SQLite 資料庫，代碼如下：

import sqlite3

# 建立新的資料庫檔案

db = sqlite3.connect("cases.sqlite")

# 按塊加載 CSV 檔案

for c in pd.read_csv(csv, chunksize=100):

# 将所有資料行加載到新的資料庫表中

c.to_sql("cases", db, if_exists="append")

# 為“state”列添加索引

db.execute("CREATE INDEX state ON cases(state)")

db.close()

https://gist.github.com/SaraM92/5b445d5b56be2d349cdfa988204ff5f3#file-load_into_db-py

為使用資料庫，下面需要重寫 get_state_info 函數。

這樣可降低記憶體占用 50%。

小結

處理大規模資料集時常是棘手的事情，尤其在記憶體無法完全加載資料的情況下。一些解決方案或是耗時，或是耗費财力。畢竟增加資源是最簡單直接的解決方案。

但是在資源受限的情況下，可以使用 Pandas 提供的一些功能，降低加載資料集的記憶體占用。其中的可用技術包括壓縮、索引和資料分塊

python pandas

繼續閱讀

Spring MVC 自學雜記（五） -- SpringMVC與前台的json資料互動

《MySQL技術内幕：InnoDB存儲引擎》筆記

github 如何和 xcode 聯系起來

localstack 1.0 ga 了

擴容TIKV節點遇到的坑

PHP輔導代做程式設計：CS353 Database System

解決方案之：DM relay 處理單元報錯

用 Canvas 編織璀璨星空圖

BZOJ 2301: [HAOI2011]Problem b (莫比烏斯反演+分塊+容斥)

自學Zabbix3.10.2-事件通知Notifications upon events-Actions報警配置點選傳回：自學zabbix集錦

HDU 5678 ztr loves trees

《2020失業潮，普通人能否出奇制勝？》筆記

拓端tecdat|R語言彈性網絡Elastic Net正則化懲罰回歸模型交叉驗證可視化

二叉樹及其應用--二叉樹建立

詳解STM32單片機的堆棧

開源按鍵元件Multi_Button的使用,含測試工程