![](https://img.laitimes.com/img/__Qf2AjLwojIjJCLyojI0JCLiYWan5CZlVmMlNGM4cjMidzMwYWMxgzNkBDN1YzN0QWZxETZy8CX0JXZ252bj91Ztl2Lc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.gif)
平均值是个厉害角色。但有时候,它也并不十分靠谱。
平均数能让我们找到数据的中心所在,但要对数据的结果下分析结论,仅有均值、中位数以及众数还不能提供充足的信息,此时需要借助数据的离散程度进行参考。
集中趋势与离散程度是同一个问题的两个方面,前者反应集中度聚集的程度,后者表明集中趋势度指标代表性的的好与差。
【定类数据的离散程度-异众比率】
小王打算去学车,了解到本市最近有家驾校在搞活动,于是顺手把广告发到同学群问问这家驾校如何。结果有10个人给出了评价意见,其中3个人评价“一般”,4个人说“不错”,3个人说“较差”。
其中给出评价“不错”的人数最多,因此小王综合权衡了一下觉得这个驾校还是可以选择的,毕竟大多数人的评价还是“不错的”,所谓的大多数就是指众数,即4。
但是小王女友小张不这么认为,她觉得虽然评价“不错”的人最多,但是其它评价的人的占比达到了60%,所以这个驾校的“好评”代表性比较差,应该慎重选择。60%即为异众比率。
异众比率指非众数组的频数占总频数的比例,在对定类数据进行分析的过程中,如果集中趋势用众数来描述,则离散程度用异众比来描述。
异众比率值越大,表明各变量相对于众数越离散;该值越小,说明各值相对于众数越集中。异众比率的计算方法为:
❶异众比率=(样本总数-众数组频次)/样本总数
【定序数据的离散程度-四分位差】
小王在驾校报名以后,没多久就开始练车了,但听说科目二都比较难考,于是小王找到教练求证。
教练说,考试通过平均需要考试2次左右,但学车也有天赋之分,天赋好的人一次性就通过了,而有人考了15次才通过。看来人与人之间的这种天赋差别还真的蛮大的,因为他们之间隔着14次的努力。
为什么这么说呢,因为通过考试的次数竟然相差14次,这就是极差,即最大值和最小值之间的差值。听了教练的话,小王开始有点慌...。
接着,教练又补充了说道,今年通过科目二考试的学员,有一个学员是一次性通过,七个学员考了2次,四个学员考了3次,两个学员考了4次,一个学员考了15次。
听教练说完,细心的小王根据教练刚才的描述画了个表。很快,他发现了数据中的异样。如果根据这个表的数据去判断学员之间的天赋差异是有失偏颇的。
极差可以用来说明两个极端值的变异范围,优点是简单明确,但缺点是受极端影响值较大。
于是可以把极差的概念进行“优化”一下,即把数据等分为四组,即先用中位数Q2将数据分割成两组(如下图),然后再取分割后两组数的中位数Q1以及Q3。通过这种方法降低极端值的影响,Q3与Q1的差值即为四分位差。
按照四分位分割的方法产生了五个数据点,以上五个数据点在Excel中可以通过函数QUARTILE求得,表示方法分别为;
❶最小值=QUARTILE($C$3:$Q$3,0) ❷第一个四分位数=QUARTILE($C$3:$Q$3,1) ❸第二个四分位数=QUARTILE($C$3:$Q$3,2) ❹第三个四分位数=QUARTILE($C$3:$Q$3,3) ❺最大值=QUARTILE($C$3:$Q$3,4)
因此,根据函数也可计算出四分位差为1,即
❻四分位差=QUARTILE($C$3:$Q$3,3)-QUARTILE($C$3:$Q$3,1)
由此可见所谓的天赋差异其实也没有“想象”中的那么大。一般,如果集中趋势用中位数描述,则离中趋势可以用四分位差描述。
【定距和定比数据的离散程度-变异系数】
眼看半年过去了,陆续地有学员毕业了,但是小王还在努力中,于是小王又问教练,学员平均毕业时间大概是多久。
教练告诉小王,毕业时间平均为8个月。但是小王心里还是没有底,想了解一下这个平均数靠不靠谱。于是教练又一一念叨了今年毕业的几个学员的所耗的时间;
❶平均值=AVERAGE(C3:L3)
小王记下这组数据后发现,虽然平均毕业时间是8个月,但是时间长短不一,此时如果需要测量这组数据的与平均值的偏离度,那么可以使用方差,即每个数值与平均值差值的平方的算术平均数。即∑(x-均值)2/n。
但为了更加直观,一般在数据分析的时候常用标准方差来说明数据的偏离度,即方差的平方根。标准差与方差不同的是,标准差和变量的计算单位相同,比方差清楚。
在Excel中,它们的计算函数分别为:
❶方差=VARP(C3:L3) ❷标准差=STDEVP(C3:L3)
即便标准差比方差更加直观地体现出数据的偏离度,但是在进行横向对比时仍然有一定的局限。此时可以用变异系数来表示,即标准差与均值的比值,根据函数计算结果可知变异系数约为0.5,从这个结果来看,这个平均值代表性是比较差的。
变异系数=标准差/均值
变异系数也被称为标准离差率或单位风险,一般只在平均值不为零时有定义,而且一般适用于平均值大于零的情况。
数据可以揭开事实,也可以掩盖真相。在不同场景下,单纯的数学意义很难直接说明一个结论,因此需要进行反复求证和验证。
【更多文章及视频可登录www.mychart.cn】
相关文章
数据分析的中庸之道——均值分析
这些“定量分析”,竟用Excel轻松搞定