數理統計與描述性統計
- 一、數理統計概念
-
- 1.基本概念釋義
- 2.統計量與抽樣
- 3.常用的統計量
- 二、描述性統計
-
- 1.資料集中趨勢的度量
- 2.資料離散趨勢的度量
- 3.分布特征
- 4.偏度與峰度
-
- (1)偏度
- (2)峰度
- (3)Python實作
一、數理統計概念
1.基本概念釋義
-
定義
在數理統計中,稱研究對象的全體為總體,通常用一個随機變量表示總體。組成總體的每個基本單元叫個體。從總體X中随機抽取一部分個體X1,X2,…,Xn,稱X1,X2,…,Xn為取自X的容量為n的樣本。
-
性質
樣本具有兩重性,即當在一次具體地抽樣後它是一組确定的數值。但在一般叙述中樣本也是一組随機變量,因為抽樣是随機的。
2.統計量與抽樣
-
統計推斷
數理統計的任務是采集和處理帶有随機影響的資料,或者說收集樣本并對之進行加工,以此對所研究的問題作出一定的結論,這一過程稱為統計推斷。
-
統計量
在統計推斷中,對樣本進行加工整理,實際上就是根據樣本計算出一些量,使得這些量能夠将所研究問題的資訊集中起來,這種根據樣本計算出的量就是統計量,統計量是樣本的某種函數。
-
抽樣分布
統計量的分布稱為抽樣分布。
3.常用的統計量
-
樣本均值
樣本均值通常用來估計總體分布的均值和對有關總體分布均值的假設作檢驗。
樣本均值公式:設X1,X2,…,Xn是總體X的一個簡單随機樣本,則
機率統計(二)數理統計與描述性統計一、數理統計概念二、描述性統計 -
樣本方差
通常用樣本方差來估計總體分布的方差和對有關總體分布均值或方差的假設作檢驗。
樣本方差公式:設X1,X2,…,Xn是總體X的一個簡單随機樣本,則
機率統計(二)數理統計與描述性統計一、數理統計概念二、描述性統計 -
k階樣本原點矩
通常用樣本的無階原點矩來估計總體分布的k階原點矩。
k階原點矩是随機變量x“偏離”原點(0,0)的“距離”的k次方的期望值,當k = 1時,相當于樣本均值
k階樣本原點矩公式:設X1,X2,…,Xn是總體X的一個簡單随機樣本,則
機率統計(二)數理統計與描述性統計一、數理統計概念二、描述性統計 -
k階樣本中心矩
k階中心矩是随機變量x“偏離”其中心的“距離”的k次方的期望值。一般均以其平均數為“中心”。
當樣本量足夠大時,1/n與1/(n-1)近似于相等。
k階樣本中心矩公式:設X1,X2,…,Xn是總體X的一個簡單随機樣本,則
機率統計(二)數理統計與描述性統計一、數理統計概念二、描述性統計
二、描述性統計
1.資料集中趨勢的度量
-
平均數
均值又稱算術平均數,适用于數值型資料,不适用于類别資料。
機率統計(二)數理統計與描述性統計一、數理統計概念二、描述性統計 -
中位數
一組資料按順序排列後,居于中間位置的數。
中位數描述資料中心位置的數字特征,對于對稱分布的資料,均值與中位數比較接近,對于偏态分布的資料,均值與中位數則可能相差很大。
中位數不受異常值的影響,具有穩健性。
機率統計(二)數理統計與描述性統計一、數理統計概念二、描述性統計 -
頻數
指同一觀測值在一組資料中出現的次數。
-
衆數
一組資料中,出現次數最多的那個數(幾個數)。
-
四分位數
四分位差越大,表示資料離散程度越大。
四分位數是在一定程度上對極差的一種改進,避免了極端值的幹擾,但它對資料差異的反映仍然是不充分的。
四分位差是一種順序統計量,适用于定序資料和定量資料,尤其是當用中位數來測度資料集中趨勢時。
- 均值 VS 中位數 VS 衆數
機率統計(二)數理統計與描述性統計一、數理統計概念二、描述性統計 - Python實作
import numpy as np
import pandas as pd
a = [1,2,4,5,3,12,12,23,43,52,11,22,22,22]
a_mean = np.mean(a)
a_med = np.median(a)
print("a的平均數",a_mean)
print("a的中位數",a_med)
#使用描述統計函數
ser = pd.Series(a)
print(ser.describe())
2.資料離散趨勢的度量
-
方差
用來計算每一個變量(觀察值)與總體均數之間的差異
方差公式:
機率統計(二)數理統計與描述性統計一、數理統計概念二、描述性統計 -
标準差
樣本方差的開方即為樣本标準差
标準差公式:
機率統計(二)數理統計與描述性統計一、數理統計概念二、描述性統計 -
極差
資料越分散,極差越大
極差公式:R = max(x) - min(x)
-
四分位差
樣本上、下四分位數之差稱為四分位差(或半極差)
它也是度量樣本分散性的重要數字特征,特别對于具有異常值的資料
四分位差公式:R1 = Q3 - Q1
-
變異系數
變異系數是刻畫資料相對分散性的一種度量,變異系數隻有在平均值不為零時有意義,而且一般适用于平均自大于0的情況,變異系數也被稱為标準離差率或機關風險。
當需要比較兩組資料離散程度大小的時候,如果兩組資料的測量尺度相差太大,或者資料量綱的不同,變異系數可以消除測量尺度和量綱的影響
機率統計(二)數理統計與描述性統計一、數理統計概念二、描述性統計 - Python實作
import numpy as np
a = [1,2,4,5,3,12,12,23,43,52,11,22,22,22]
a_var = np.var(a) #方差
a_std1 = np.sqrt(a_var) #标準差方法1
a_std2 = np.std(a) #标準差方法2
a_mean = np.mean(a) #均值
a_cv = a_std2 / a_mean #變異系數
3.分布特征
請參考https://blog.csdn.net/murphy852/article/details/106904857
4.偏度與峰度
(1)偏度
偏度也稱為偏态,是統計資料分布偏斜方向和程度的度量,是統計資料分布非對稱程度的數字特征,直覺看來就是密度函數曲線尾部的相對長度。
偏度刻畫的是分布函數(資料)的對稱性,對于均值對稱的資料,其偏度系數為0,右側更分散的資料偏度系數為正,左側更分散的資料偏度系數為負。
正态分布的偏度為0,兩側尾部長度對稱。
-
左偏
(1)若以bs表示偏度,bs < 0稱分布具有負偏離,也稱左偏态;
(2)此時資料位于均值左邊的比位于右邊的少,直覺表現為左邊的尾部相對于右邊的尾部要長;
(3)因為有少數變量值很小,使曲線左側尾部拖得很長
-
右偏
(1)bs > 0稱分布具有正偏離,也稱右偏态;
(2)此時資料位于均值右邊的比位于左邊的少,直覺表現為右邊的尾部相對于左邊的尾部要長;
(3)因為有少數變量值很小,使曲線右側尾部拖得很長
- 偏度系數
機率統計(二)數理統計與描述性統計一、數理統計概念二、描述性統計
(2)峰度
峰度說明的是分布曲線在平均值處峰值高低的特征數,如果峰度大于3,峰的形狀比較尖,比正态分布要陡峭。
峰度刻畫的是分布函數的集中和分散程度。
峰度系數:
峰度、偏度與正态分布對比如下:
(3)Python實作
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
data = list(np.random.randn(10000)) #生成标準正态分布的随機數
plt.hist(data,1000,facecolor = 'g',alpha = 0.5)
plt.show()
s = pd.Series(data)
print("偏度系數",s.skew())
print("峰度系數",s.kurt())