天天看点

《Python机器学习原理与算法实现 / 杨维忠,张甜著

作者:数据科学作家

第二章Python进阶知识。

在处理数据时,我们常常会遇到缺失值。这些缺失值会影响数据的处理效率,因此需要进行处理。处理缺失值的方法有三种:直接忽略、删除或填充。其中,删除是为了确保所有样本都没有缺失值,以便进行机器学习或统计分析。接下来,我们将通过一个实例来解释如何处理缺失值。

首先,我们需要读取数据集,并检查是否存在缺失值。通过检查发现,所有样本都有确认值。然后,我们需要计算确实值的数量,并对分人群的差值进行排序。我们发现只有一个样本没有全日制,需要进行排查。

《Python机器学习原理与算法实现 / 杨维忠,张甜著

对于缺失值的处理,我们可以用字符串代替、用前后值填充或用变量均值或中位数填充。在这个实例中,我们使用了第二种方法,即用前后值填充数据,并重新计算全日制的数量。通过这种方法,所有样本都有了全日制。

通过以上例子,我们了解了如何处理缺失值,并学会了如何进行数据分析和处理。在Python的第五个、二十三点八这个位置,我们发现该数值是由上一个单元格的值补充而成的,因此可以重新读取数据以获取准确值。

《Python机器学习原理与算法实现 / 杨维忠,张甜著

我们可以使用后一个非确认纸未来纸进行填充,以查看该位置是否有圈值。该位置的圈值为二十三点八,采用六十点五二进行填充。

《Python机器学习原理与算法实现 / 杨维忠,张甜著

还可以使用容量的均值或中位数进行填充,并重新读取数据。通过计算表格的均值,可以得出该表格的平均值为八十四点三七。

我们可以使用中位数进行填充。在这个示例中,Pythonpro的差值为三十二点三、七、二、七、三、九,对应的位置为八十四点三七。

还可以使用线性差值法进行填充,并重新读取数据。通过使用线性差值法,我们可以得出以下结果。

《Python机器学习原理与算法实现 / 杨维忠,张甜著

除了填充数据外,我们还可以删除缺失值。通过删除缺失值,可以得到更准确的结果。例如,在一号样本中,由于存在缺失值,因此该位置的值被删除。在五号样本和四号样本中,由于存在圈值,因此该位置的值也被删除。只有所有变量的值均为确实值时,整个样本才会被删除。

《Python机器学习原理与算法实现 / 杨维忠,张甜著

在处理数据时,我们需要根据具体情况选择合适的方法。在处理缺失值时,我们需要根据实际情况选择合适的方法。

《Python机器学习原理与算法实现 / 杨维忠,张甜著
《Python机器学习原理与算法实现 / 杨维忠,张甜著

继续阅读