天天看點

利用Python進行資料分析(10) pandas基礎: 處理缺失資料

資料不完整在資料分析的過程中很常見。 pandas使用浮點值NaN表示浮點和非浮點數組裡的缺失資料。 pandas使用isnull()和notnull()函數來判斷缺失情況。

對于缺失資料一般處理方法為濾掉或者填充。

濾除缺失資料:dropna()函數

對于一個Series,dropna()函數傳回一個包含非空資料和索引值的Series,例如:

對于DataFrame,dropna()函數同樣會丢掉所有含有空元素的資料,例如:

但是可以指定how='all',這表示隻有行裡的資料全部為空時才丢棄,例如:

如果想以同樣的方式按列丢棄,可以傳入axis=1,例如:

填充缺失資料:fillna()函數

如果不想丢掉缺失的資料而是想用預設值填充這些空洞,可以使用fillna()函數:

如果不想隻以某個标量填充,可以傳入一個字典,對不同的列填充不同的值: