天天看點

Pandas CSV 檔案

CSV(Comma-Separated Values,逗号分隔值,有時也稱為字元分隔值,因為分隔字元也可以不是逗号),其檔案以純文字形式存儲表格資料(數字和文本)。

CSV 是一種通用的、相對簡單的檔案格式,被使用者、商業和科學廣泛應用。

Pandas 可以很友善的處理 CSV 檔案,本文以 nba.csv 為例,你可以下載下傳 nba.csv 或打開 nba.csv 檢視。

import pandas as pd

df = pd.read_csv('nba.csv')

print(df.to_string())

to_string() 用于傳回 DataFrame 類型的資料,如果不使用該函數,則輸出結果為資料的前面 5 行和末尾 5 行,中間部分以 ... 代替。

print(df)

輸出結果為:

我們也可以使用 to_csv() 方法将 DataFrame 存儲為 csv 檔案:

# 三個字段 name, site, age

nme = ["Google", "Runoob", "Taobao", "Wiki"]

st = ["www.google.com", "www.runoob.com", "www.taobao.com", "www.wikipedia.org"]

ag = [90, 40, 80, 98]

# 字典

dict = {'name': nme, 'site': st, 'age': ag}

df = pd.DataFrame(dict)

# 儲存 dataframe

df.to_csv('site.csv')

執行成功後,我們打開 site.csv 檔案,顯示結果如下:

Pandas CSV 檔案

head( n ) 方法用于讀取前面的 n 行,如果不填參數 n ,預設傳回 5 行。

print(df.head())

print(df.head(10))

tail( n ) 方法用于讀取尾部的 n 行,如果不填參數 n ,預設傳回 5 行,空行各個字段的值傳回 NaN。

print(df.tail())

print(df.tail(10))

info() 方法傳回表格的一些基本資訊:

print(df.info())

non-null 為非空資料,我們可以看到上面的資訊中,總共 458 行,College 字段的空值最多。