天天看點

多因子探索分析

假設檢驗
多因子探索分析
  • 檢驗統計量,根據資料的均值、方差等性質,将資料轉換為一個函數,構造這個函數的目的是将這個資料轉換為一個已知分布容易解決的格式
  • 顯著性水準一般用希臘字母a表示,0.05代表資料有95%的可能與已知分布一緻。
多因子探索分析
多因子探索分析

檢驗統計量的選擇

多因子探索分析

假設檢驗的更多執行個體和詳細分析

https://www.zhihu.com/question/263428663/answer/269446279

更深入詳細的了解假設檢驗,參考可汗學院公開課第47、48、49集

http://open.163.com/special/Khan/khstatistics.html
卡方檢驗
卡方檢驗就是統計樣本的實際觀測值與理論推斷值之間的偏離程度,實際觀測值與理論推斷值之間的偏離程度就決定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趨于符合,若兩個值完全相等時,卡方值就為0,表明理論值完全符合。
多因子探索分析
多因子探索分析
方差檢驗
多因子探索分析
多因子探索分析
相關系數
相關關系是一種非确定性的關系,相關系數是研究變量之間 線性相關 程度的量。
多因子探索分析

皮爾遜相關系數:分子是兩組數的協方差,分母是标準差的積(這裡的u指數學期望)

多因子探索分析

斯皮爾曼相關系數:n指的是樣本量,d指的是樣本的名次差

代碼實作
Scipy簡介:Scipy是一個進階的科學計算庫,它和Numpy聯系很密切,Scipy一般都是操控Numpy數組來進行科學計算,是以可以說是基于Numpy之上了。Scipy有很多子子產品可以應對不同的應用,例如插值運算,優化算法、圖像處理、數學統計等。
多因子探索分析

Scipy庫的簡介,更多了解參考文檔

正态分布檢驗

import numpy as np
import scipy.stats as ss

norm_dist = ss.norm.rvs(size=20)  
ss.normaltest(norm_dist)  # 不是u檢驗法,而是基于峰度和偏度的檢驗方法
>>> NormaltestResult(statistic=0.6142427179815724, pvalue=0.7355613285098694)
           

ss的正态檢驗的統計量為0.614,p值為0.73,如果以0.05為顯著水準,明顯該分布可以判斷為正态分布。

ss.chi2_contingency([[15,95],[85,5]])
>>> (126.08080808080808, 2.9521414005078985e-29, 1, array([[55., 55.],
        [45., 45.]]))
# 輸出結果依次為檢驗統計量,p值,自由度,理論分布。
# 這裡測試的是本文之前提到的卡方檢驗的例子。
           

t檢驗

#獨立分布t檢驗,用于檢驗均值是否有差别
ss.ttest_ind(ss.norm.rvs(size=10),ss.norm.rvs(size=20))

ss.ttest_ind(ss.norm.rvs(size=10),ss.norm.rvs(size=200))
           
多因子探索分析
ss.f_oneway([49,50,39,40,43],[28,32,30,26,34],[38,48,45,42,48])
>>> F_onewayResult(statistic=18.705009276437828, pvalue=0.00020520945856735003)
           

QQ圖

from statsmodels.graphics.api import qqplot
from matplotlib import pyplot as plt
plt.show(qqplot(ss.norm.rvs(size=100)))
           
多因子探索分析

在角平分線上,證明為正态分布