文章目录
- 内容介绍
- 集中趋势
- 众数
- 中位数
- 四分位数
- 平均数
内容介绍
本文介绍 Python数据分析师 统计学中需要掌握概括性度量部分的内容。
不懂统计学的数据分析师都不是好的数据分析师,多数的数据分析师课程都讲Python的应用,又不是开发代码敲的那么好有什么用?不学统计的知识是没有办法做数据分析师的,本专栏的文章主要以概念和应用举例为主,跳过能让人劝退的学术推导的内容,让大家在愉快中学习统计知识。
可以学习到以下知识:
- 什么是数据的集中趋势。
- 数据集中趋势的数据种类,包括众数、中位数、四分位数、平均数,以及它们彼此之间的关系。
集中趋势
是一组数据向其中心值靠拢的倾向和程度,测度集中趋势就是寻找数据水平的代表值或中心值,不同类型的数据用不同的集中趋势测度值。

众数
是分类数据的一种,表示在一组数据中出现次数最多的变量值,适合于数据量较多时使用,不受极端值的影响,一组数据可能没有众数或有几个众数。
众数的不同类型:主要用于分类数据,也可用于顺序数据和数值型数据。
中位数
是顺序数据的一种,是一组数值排序后处于中间位置上的值。不受极端值的影响,主要用于顺序数据,也可用数值型数据,但不能用于分类数据,且各变量值与中位数的离差绝对值之和最小。
中位数的位置和数值、计算方式
不同类型的中位数
四分位数
是一组数据排序后处于25%和75%位置上的值,不受极端值的影响。
四分位数的计算方式
平均数
也称为均值,是数值型数据,是集中趋势的最常用测度值,是一组数据的均衡点所在。并且体现了数据的必然性特征,易受极端值的影响。有简单平均数和加权平均数之分。
简单平均数:分为样本平均数和总体平均数
加权平均数:为样本设置不同权重得到的平均数。
几何平均数:由 n 个变量值乘积的 n 次方根,适用于对比率数据的平均,主要用于计算 平均增长率 。
假设某基金收益率4年为4.5%、2.1%、25.5%、1.9%,计算平均收益率
众数、中位数和平均数的关系
众数
- 不受极端值影响。
- 具有不惟一性。
- 数据分布偏斜程度较大且有明显峰值时应用。
中位数
- 不受极端值影响。
- 数据分布偏斜程度较大时应用。
平均数
- 易受极端值影响。
- 数学性质优良。
- 数据对称分布或接近对称分布时应用。