天天看点

「数据分析师的统计基础」统计学概括性度量内容介绍集中趋势众数中位数四分位数平均数

文章目录

  • 内容介绍
  • 集中趋势
  • 众数
  • 中位数
  • 四分位数
  • 平均数

内容介绍

本文介绍 Python数据分析师 统计学中需要掌握概括性度量部分的内容。

不懂统计学的数据分析师都不是好的数据分析师,多数的数据分析师课程都讲Python的应用,又不是开发代码敲的那么好有什么用?不学统计的知识是没有办法做数据分析师的,本专栏的文章主要以概念和应用举例为主,跳过能让人劝退的学术推导的内容,让大家在愉快中学习统计知识。

可以学习到以下知识:

  1. 什么是数据的集中趋势。
  2. 数据集中趋势的数据种类,包括众数、中位数、四分位数、平均数,以及它们彼此之间的关系。

集中趋势

是一组数据向其中心值靠拢的倾向和程度,测度集中趋势就是寻找数据水平的代表值或中心值,不同类型的数据用不同的集中趋势测度值。

「数据分析师的统计基础」统计学概括性度量内容介绍集中趋势众数中位数四分位数平均数

众数

是分类数据的一种,表示在一组数据中出现次数最多的变量值,适合于数据量较多时使用,不受极端值的影响,一组数据可能没有众数或有几个众数。

「数据分析师的统计基础」统计学概括性度量内容介绍集中趋势众数中位数四分位数平均数

众数的不同类型:主要用于分类数据,也可用于顺序数据和数值型数据。

「数据分析师的统计基础」统计学概括性度量内容介绍集中趋势众数中位数四分位数平均数

中位数

是顺序数据的一种,是一组数值排序后处于中间位置上的值。不受极端值的影响,主要用于顺序数据,也可用数值型数据,但不能用于分类数据,且各变量值与中位数的离差绝对值之和最小。

「数据分析师的统计基础」统计学概括性度量内容介绍集中趋势众数中位数四分位数平均数

中位数的位置和数值、计算方式

「数据分析师的统计基础」统计学概括性度量内容介绍集中趋势众数中位数四分位数平均数
「数据分析师的统计基础」统计学概括性度量内容介绍集中趋势众数中位数四分位数平均数

不同类型的中位数

「数据分析师的统计基础」统计学概括性度量内容介绍集中趋势众数中位数四分位数平均数

四分位数

是一组数据排序后处于25%和75%位置上的值,不受极端值的影响。

「数据分析师的统计基础」统计学概括性度量内容介绍集中趋势众数中位数四分位数平均数

四分位数的计算方式

「数据分析师的统计基础」统计学概括性度量内容介绍集中趋势众数中位数四分位数平均数

平均数

也称为均值,是数值型数据,是集中趋势的最常用测度值,是一组数据的均衡点所在。并且体现了数据的必然性特征,易受极端值的影响。有简单平均数和加权平均数之分。

简单平均数:分为样本平均数和总体平均数

「数据分析师的统计基础」统计学概括性度量内容介绍集中趋势众数中位数四分位数平均数

加权平均数:为样本设置不同权重得到的平均数。

「数据分析师的统计基础」统计学概括性度量内容介绍集中趋势众数中位数四分位数平均数

几何平均数:由 n 个变量值乘积的 n 次方根,适用于对比率数据的平均,主要用于计算 平均增长率 。

「数据分析师的统计基础」统计学概括性度量内容介绍集中趋势众数中位数四分位数平均数

假设某基金收益率4年为4.5%、2.1%、25.5%、1.9%,计算平均收益率

「数据分析师的统计基础」统计学概括性度量内容介绍集中趋势众数中位数四分位数平均数

众数、中位数和平均数的关系

「数据分析师的统计基础」统计学概括性度量内容介绍集中趋势众数中位数四分位数平均数

众数

  • 不受极端值影响。
  • 具有不惟一性。
  • 数据分布偏斜程度较大且有明显峰值时应用。

中位数

  • 不受极端值影响。
  • 数据分布偏斜程度较大时应用。

平均数

  • 易受极端值影响。
  • 数学性质优良。
  • 数据对称分布或接近对称分布时应用。

继续阅读