天天看点

C++中如何读取一个数的位数_数据分析中如何衡量结论的可靠性

C++中如何读取一个数的位数_数据分析中如何衡量结论的可靠性

平均值是个厉害角色。但有时候,它也并不十分靠谱。

平均数能让我们找到数据的中心所在,但要对数据的结果下分析结论,仅有均值、中位数以及众数还不能提供充足的信息,此时需要借助数据的离散程度进行参考。

集中趋势与离散程度是同一个问题的两个方面,前者反应集中度聚集的程度,后者表明集中趋势度指标代表性的的好与差。

【定类数据的离散程度-异众比率】

小王打算去学车,了解到本市最近有家驾校在搞活动,于是顺手把广告发到同学群问问这家驾校如何。结果有10个人给出了评价意见,其中3个人评价“一般”,4个人说“不错”,3个人说“较差”。

其中给出评价“不错”的人数最多,因此小王综合权衡了一下觉得这个驾校还是可以选择的,毕竟大多数人的评价还是“不错的”,所谓的大多数就是指众数,即4。

C++中如何读取一个数的位数_数据分析中如何衡量结论的可靠性

但是小王女友小张不这么认为,她觉得虽然评价“不错”的人最多,但是其它评价的人的占比达到了60%,所以这个驾校的“好评”代表性比较差,应该慎重选择。60%即为异众比率。

异众比率指非众数组的频数占总频数的比例,在对定类数据进行分析的过程中,如果集中趋势用众数来描述,则离散程度用异众比来描述。

异众比率值越大,表明各变量相对于众数越离散;该值越小,说明各值相对于众数越集中。异众比率的计算方法为:

❶异众比率=(样本总数-众数组频次)/样本总数

【定序数据的离散程度-四分位差】

小王在驾校报名以后,没多久就开始练车了,但听说科目二都比较难考,于是小王找到教练求证。

教练说,考试通过平均需要考试2次左右,但学车也有天赋之分,天赋好的人一次性就通过了,而有人考了15次才通过。看来人与人之间的这种天赋差别还真的蛮大的,因为他们之间隔着14次的努力。

为什么这么说呢,因为通过考试的次数竟然相差14次,这就是极差,即最大值和最小值之间的差值。听了教练的话,小王开始有点慌...。

接着,教练又补充了说道,今年通过科目二考试的学员,有一个学员是一次性通过,七个学员考了2次,四个学员考了3次,两个学员考了4次,一个学员考了15次。

听教练说完,细心的小王根据教练刚才的描述画了个表。很快,他发现了数据中的异样。如果根据这个表的数据去判断学员之间的天赋差异是有失偏颇的。

C++中如何读取一个数的位数_数据分析中如何衡量结论的可靠性

极差可以用来说明两个极端值的变异范围,优点是简单明确,但缺点是受极端影响值较大。

于是可以把极差的概念进行“优化”一下,即把数据等分为四组,即先用中位数Q2将数据分割成两组(如下图),然后再取分割后两组数的中位数Q1以及Q3。通过这种方法降低极端值的影响,Q3与Q1的差值即为四分位差。

C++中如何读取一个数的位数_数据分析中如何衡量结论的可靠性

按照四分位分割的方法产生了五个数据点,以上五个数据点在Excel中可以通过函数QUARTILE求得,表示方法分别为;

❶最小值=QUARTILE($C$3:$Q$3,0) ❷第一个四分位数=QUARTILE($C$3:$Q$3,1) ❸第二个四分位数=QUARTILE($C$3:$Q$3,2) ❹第三个四分位数=QUARTILE($C$3:$Q$3,3) ❺最大值=QUARTILE($C$3:$Q$3,4)

因此,根据函数也可计算出四分位差为1,即

❻四分位差=QUARTILE($C$3:$Q$3,3)-QUARTILE($C$3:$Q$3,1)

由此可见所谓的天赋差异其实也没有“想象”中的那么大。一般,如果集中趋势用中位数描述,则离中趋势可以用四分位差描述。

【定距和定比数据的离散程度-变异系数】

眼看半年过去了,陆续地有学员毕业了,但是小王还在努力中,于是小王又问教练,学员平均毕业时间大概是多久。

教练告诉小王,毕业时间平均为8个月。但是小王心里还是没有底,想了解一下这个平均数靠不靠谱。于是教练又一一念叨了今年毕业的几个学员的所耗的时间;

C++中如何读取一个数的位数_数据分析中如何衡量结论的可靠性

❶平均值=AVERAGE(C3:L3)

小王记下这组数据后发现,虽然平均毕业时间是8个月,但是时间长短不一,此时如果需要测量这组数据的与平均值的偏离度,那么可以使用方差,即每个数值与平均值差值的平方的算术平均数。即∑(x-均值)2/n。

但为了更加直观,一般在数据分析的时候常用标准方差来说明数据的偏离度,即方差的平方根。标准差与方差不同的是,标准差和变量的计算单位相同,比方差清楚。

C++中如何读取一个数的位数_数据分析中如何衡量结论的可靠性

在Excel中,它们的计算函数分别为:

❶方差=VARP(C3:L3) ❷标准差=STDEVP(C3:L3)

即便标准差比方差更加直观地体现出数据的偏离度,但是在进行横向对比时仍然有一定的局限。此时可以用变异系数来表示,即标准差与均值的比值,根据函数计算结果可知变异系数约为0.5,从这个结果来看,这个平均值代表性是比较差的。

C++中如何读取一个数的位数_数据分析中如何衡量结论的可靠性

变异系数=标准差/均值

变异系数也被称为标准离差率或单位风险,一般只在平均值不为零时有定义,而且一般适用于平均值大于零的情况。

数据可以揭开事实,也可以掩盖真相。在不同场景下,单纯的数学意义很难直接说明一个结论,因此需要进行反复求证和验证。

【更多文章及视频可登录www.mychart.cn】

C++中如何读取一个数的位数_数据分析中如何衡量结论的可靠性

相关文章

数据分析的中庸之道——均值分析

这些“定量分析”,竟用Excel轻松搞定

继续阅读