天天看點

Pandas之四缺失資料處理Pandas之四缺失資料處理

Pandas之四缺失資料處理

在實際的資料處理過程當中,不可避免地會遇到有部分資料缺失。比如在分析股票行情資料時,有部分股票有時會停牌就會出現行情資料缺失的情況。

一般在pandas中将缺失值以

np.nan

來表示,其好處是會在計算時忽略,同時其類型是

float

,不影響總體資料計算。資料分析時就要處理這些缺失值,pandas提供了缺失資料處理方法,包括删除缺失值、缺失值填充、缺失值判斷等。

首先在前文資料上,生成新的dataframe:

Pandas之四缺失資料處理Pandas之四缺失資料處理

删除缺失值

使用

.dropna

删除缺失值,可以針對整個dataframe,也可以針對某列或某行

1. 從整個df删除缺失值

常用參數

how

:any指隻要某行存在缺失值,即将該行删除;all指某行全部都是缺失值才删除。

如下圖,指定為all時,隻删除了

2021-09-07

行的資料

Pandas之四缺失資料處理Pandas之四缺失資料處理

2. 從某列删除缺失值

将E列的缺失資料删除掉

Pandas之四缺失資料處理Pandas之四缺失資料處理

3. 從某行删除缺失值

2021-09-03

的缺失資料删除掉

Pandas之四缺失資料處理Pandas之四缺失資料處理

缺失值填充

.fillna

為缺失值填充資料,可以為dataframe所有缺失值填充資料,也可以為某行或某列填充資料

1. 為df所有缺失值填充資料

Pandas之四缺失資料處理Pandas之四缺失資料處理

2. 為某列填充缺失值

選取dataframe中的E列,将其中的缺失值填充為9

Pandas之四缺失資料處理Pandas之四缺失資料處理

3. 為某行填充缺失值

将dataframe中

2021-09-07

行的缺失值以9來填充

Pandas之四缺失資料處理Pandas之四缺失資料處理

缺失值判斷

pandas提供

.isna

對缺失值進行判斷,若是缺失值傳回為True,否則傳回False。可以對dataframe所有缺失值進行判斷,也可以針對某行或某列做判斷

1. 對df所有缺失值進行判斷

Pandas之四缺失資料處理Pandas之四缺失資料處理

2. 對某列缺失值進行判斷

針對dataframe中的E列資料做缺失值判斷

Pandas之四缺失資料處理Pandas之四缺失資料處理

3. 對某行缺失值進行判斷

選取

2021-09-01

2021-09-03

之間的資料進行缺失值判斷

Pandas之四缺失資料處理Pandas之四缺失資料處理

歡迎關注微信公衆号:資料研發技術,收獲各類資料研發技術幹貨