天天看點

《Python機器學習原理與算法實作 / 楊維忠,張甜著

作者:資料科學作家

第二章Python進階知識。

在處理資料時,我們常常會遇到缺失值。這些缺失值會影響資料的處理效率,是以需要進行處理。處理缺失值的方法有三種:直接忽略、删除或填充。其中,删除是為了確定所有樣本都沒有缺失值,以便進行機器學習或統計分析。接下來,我們将通過一個執行個體來解釋如何處理缺失值。

首先,我們需要讀取資料集,并檢查是否存在缺失值。通過檢查發現,所有樣本都有确認值。然後,我們需要計算确實值的數量,并對分人群的內插補點進行排序。我們發現隻有一個樣本沒有全日制,需要進行排查。

《Python機器學習原理與算法實作 / 楊維忠,張甜著

對于缺失值的處理,我們可以用字元串代替、用前後值填充或用變量均值或中位數填充。在這個執行個體中,我們使用了第二種方法,即用前後值填充資料,并重新計算全日制的數量。通過這種方法,所有樣本都有了全日制。

通過以上例子,我們了解了如何處理缺失值,并學會了如何進行資料分析和處理。在Python的第五個、二十三點八這個位置,我們發現該數值是由上一個單元格的值補充而成的,是以可以重新讀取資料以擷取準确值。

《Python機器學習原理與算法實作 / 楊維忠,張甜著

我們可以使用後一個非确認紙未來紙進行填充,以檢視該位置是否有圈值。該位置的圈值為二十三點八,采用六十點五二進行填充。

《Python機器學習原理與算法實作 / 楊維忠,張甜著

還可以使用容量的均值或中位數進行填充,并重新讀取資料。通過計算表格的均值,可以得出該表格的平均值為八十四點三七。

我們可以使用中位數進行填充。在這個示例中,Pythonpro的內插補點為三十二點三、七、二、七、三、九,對應的位置為八十四點三七。

還可以使用線性內插補點法進行填充,并重新讀取資料。通過使用線性內插補點法,我們可以得出以下結果。

《Python機器學習原理與算法實作 / 楊維忠,張甜著

除了填充資料外,我們還可以删除缺失值。通過删除缺失值,可以得到更準确的結果。例如,在一号樣本中,由于存在缺失值,是以該位置的值被删除。在五号樣本和四号樣本中,由于存在圈值,是以該位置的值也被删除。隻有所有變量的值均為确實值時,整個樣本才會被删除。

《Python機器學習原理與算法實作 / 楊維忠,張甜著

在處理資料時,我們需要根據具體情況選擇合适的方法。在處理缺失值時,我們需要根據實際情況選擇合适的方法。

《Python機器學習原理與算法實作 / 楊維忠,張甜著
《Python機器學習原理與算法實作 / 楊維忠,張甜著

繼續閱讀