天天看点

统计学基础--数据基础

文章目录

    • 统计学与概率论间的关系
    • 标准差
    • 除法的双重含义
    • 频数分布表
    • 代表值
    • 四分位数
    • 变量与数据
    • 关于置信区间

统计学与概率论间的关系

概率论研究的是一个白箱子,你知道这个箱子的构造(里面有几个红球、几个白球,也就是所谓的分布函数),然后计算下一个摸出来的球是红球的概率。而统计学面对的是一个黑箱子,你只看得到每次摸出来的是红球还是白球,然后需要猜测这个黑箱子的内部结构,例如红球和白球的比例是多少?(参数估计)能不能认为红球40%,白球60%?(假设检验)

标准差

统计学基础--数据基础

除法的双重含义

统计学基础--数据基础

相同单位的比例是包含除,不同单位的比例是等分除

频数分布表

组:将数据以相同间隔分开的区间。·

组中值:各组上下限中间的数值。·常以组中值代以落入改组中的数据。

频数:各组中包含数值的数量。·

相对频数:各组数据频数在总频数中的占比。·

累计相对频数:逐级相对频数相加的和。

分组取组段值时,可以参照JIS标准:

统计学基础--数据基础

矩形图是将频数分布表的组用横轴表示、将频数用纵轴表示绘制出的柱状图。

累计频数分布图:

统计学基础--数据基础

代表值

可以有平均数及中位数等:

统计学基础--数据基础

四分位数

统计学基础--数据基础
统计学基础--数据基础

B组,前版数据的中位数是35,后半数据的中位数是70.由四分位划分的区间,是人数均等,箱体长度,表示为相同人数其分数分步的离散程度。如图,35至40分间分布的人数均等,但是密度最大。

变量与数据

数值组成的整体被称为“数据”,而测量对象对应的单个条目(例题中为考试分数)被称为“变量”。

关于置信区间

理解的关键是我们是对这个构造置信区间的方法做概率描述,而非真值,也非我们算得的这个区间本身。

统计学基础--数据基础

每个样本能生成一个置信区间。但是置信区间有一定随机性。

20个样本,有19个样本包含样本均值(某种整体参数),有一个区间未包含样本总体均值,则对于任一样本,其包含样本总体参数的概率是95%。

继续阅读