Pandas之四缺失資料處理
在實際的資料處理過程當中,不可避免地會遇到有部分資料缺失。比如在分析股票行情資料時,有部分股票有時會停牌就會出現行情資料缺失的情況。
一般在pandas中将缺失值以
np.nan
來表示,其好處是會在計算時忽略,同時其類型是
float
,不影響總體資料計算。資料分析時就要處理這些缺失值,pandas提供了缺失資料處理方法,包括删除缺失值、缺失值填充、缺失值判斷等。
首先在前文資料上,生成新的dataframe:

删除缺失值
使用
.dropna
删除缺失值,可以針對整個dataframe,也可以針對某列或某行
1. 從整個df删除缺失值
常用參數
how
:any指隻要某行存在缺失值,即将該行删除;all指某行全部都是缺失值才删除。
如下圖,指定為all時,隻删除了
2021-09-07
行的資料
2. 從某列删除缺失值
将E列的缺失資料删除掉
3. 從某行删除缺失值
将
2021-09-03
的缺失資料删除掉
缺失值填充
.fillna
為缺失值填充資料,可以為dataframe所有缺失值填充資料,也可以為某行或某列填充資料
1. 為df所有缺失值填充資料
2. 為某列填充缺失值
選取dataframe中的E列,将其中的缺失值填充為9
3. 為某行填充缺失值
将dataframe中
2021-09-07
行的缺失值以9來填充
缺失值判斷
pandas提供
.isna
對缺失值進行判斷,若是缺失值傳回為True,否則傳回False。可以對dataframe所有缺失值進行判斷,也可以針對某行或某列做判斷
1. 對df所有缺失值進行判斷
2. 對某列缺失值進行判斷
針對dataframe中的E列資料做缺失值判斷
3. 對某行缺失值進行判斷
選取
2021-09-01
與
2021-09-03
之間的資料進行缺失值判斷
歡迎關注微信公衆号:資料研發技術,收獲各類資料研發技術幹貨