天天看点

数据分布的检验

对于数值型数据,在应用各种算法之前,首要做的了解一些数据的分布,然后根据情况看是否有必要对数据进行变换。了解数据的分布主要有两种手段:

  1. 从图形的层面感性的认识一下

    常用的主要有两种方式:直方图和 q-q图。 关于直方图的定义我这里不做过多解释,网上资料很多。q-q图可以参考我的一篇博文:https://blog.csdn.net/lvla_juan/article/details/97235734

    更详细的可以参考:

    https://mp.weixin.qq.com/s?__biz=MzAxMDA4NjU3OA==&mid=403375449&idx=1&sn=2fb2c79f8b272686d3908c38ad03b6b1&scene=21#wechat_redirect

  2. 从具体的数据大小理性的认识一下

    夏皮罗-威尔克检验(Shapiro-Wilk test)和科尔莫戈罗夫-斯米尔诺夫检验(Kolmogorov-Smirnov test)【针对是正态分布的检验】

    夏皮罗-威尔克检验也叫w检验。scipy的具体函数是:scipy.stats.shapiro。 一般认为,如果该函数返回的p-value <0.05时,则认为检验的对象不是正态分布。