假設檢驗_統計判斷

統計學本質

抽樣

為了了解全體調查對象的傾向，需要以抽樣的方式統計性地抽取一部分調查對象，

然後根據樣本中所包含的資訊對總體的狀況進行估計和推算。

從總體當中抽取一定的樣本，基于樣本的統計量來推斷總體特征

兩大定理

大數定律（Law of Large Numbers）

樣本N越大，樣本均值幾乎必然等于總體均值。

中心極限定理(Central Limit Theorem)

當樣本量N逐漸趨于無窮大時，N個抽樣樣本的均值的幀數逐漸趨于正态分布。

統計判斷

抽樣誤差與标準誤差

抽樣誤差

由個體變異産生的、抽樣造成的樣本統計量與總體參數的差别。原因：
- 抽樣
- 個體差異
标準誤

表示樣本統計量抽樣誤差大小的統計量。

标準差與标準誤的差別

名額	意義	應用
标準差	衡量變量值變異程度，标準差越大表示變量值變異程度越大，反之則越小	描述正态分布（近似正态分布）資料的頻數分布
标準誤	樣本均數的變異程度，表示抽樣誤差的大小。标準誤差越大表示抽樣誤差越大，樣本均數的可靠性越小；标準誤越小表示抽樣誤差越小，樣本均數的可靠性越大。	總體均數區間估計；兩個或多個總體均數間的比較

名額

意義

應用

标準差

衡量變量值變異程度，标準差越大表示

變量值變異程度越大，反之則越小

描述正态分布（近似正态分布）資料的

頻數分布

标準誤

樣本均數的變異程度，表示抽樣誤差的大

小。标準誤差越大表示抽樣誤差越大，樣本

均數的可靠性越小；标準誤越小表示抽樣

誤差越小，樣本均數的可靠性越大。

總體均數區間估計；兩個或多個總體

均數間的比較

t分布

t分布中有一個參數，即自由度v。當自由度不同時，曲線的形狀不同；

當自由度趨向無窮大時，t分布趨近标準正态分布。

随機變量X

N（ μ , σ 2 \mu,\sigma^2 μ,σ2）

Z = X − μ σ Z=\frac{X-\mu}{\sigma} Z=σX−μ

——————>

z變換

标準正态分布

N（0，1^2）

Excel兩個函數：TINV(機率值求t值)、TDIST(t值求機率值)

t分布特征：

單峰分布，以0為中心，左右對稱。
自由度v越小，則t值越分散，峰值越矮而尾部越翹。
當v越大，越接近正态分布。

參數估計

定義：用樣本統計量推斷總體參數。

點估計（Point Estimation）：用相應樣本統計量直接作為總體參數的估計值。

區間估計（Interval Estimation）：按預先給定的機率所确定的包含未知總體參數的一個範圍。

注意：（1）總體标準差是否已知，（2）樣本量n的大小。

總體标準差未知且樣本量較小，按t分布估計。樣本量較大，按z分布估計。

假設檢驗

舉例：大規模調查表明，健康成年男子血紅蛋白的均值為136.0g/L，現随機抽樣調查某機關食堂成年男性炊事員25名，測得血紅蛋白均數121.0g/L，标準差48.8g/L。

問題：根據資料推斷食堂炊事員血紅蛋白均數是否與健康

總體均值與樣本均值不同的原因：（1）抽取誤差導緻的，（2）本質差異産生的。

假設檢驗的目的：判斷總體與樣本量的差異是哪一種原因導緻的。

假設檢驗思路和步驟

基本思想：小機率反證法

利用小機率反證法思想，從問題對立面（H0）出發間接判斷要解決的問題（H1）是否成立。然後在H0成立的條件下計算檢驗統計量，最後得到P值來判斷。當P值小于預先設定的顯著性水準a時，就屬于小機率事件。根據小機率事件的原理：小機率事件在一次抽樣中發生的可能性很小，如果發生了，則有理由懷疑原假設H0，認為其對立面H1是成立的。

H0：原假設，兩者之間沒有差異。H1：研究假設，兩者之間有差異。

步驟

建立檢驗假設（H0、H1），确認顯著性水準
根據變量類型、統計推斷的目的、是否滿足特定條件等選擇相應的檢驗統計量（T值、F值、Z值、卡方值）
計算P值，與顯著性水準相比

假設檢驗注意事項

假設檢驗是針對總體而言的，而不是針對樣本
H0和H1是互相聯系，對立存在，二者卻一不可
H1直接反應了檢驗的單雙側，需要考慮有無差異還是差異的方向
雙側檢驗較為保守，是否定為單側檢驗需結合專業知識判斷

假設檢驗_統計判斷

繼續閱讀

SPSS學習筆記（四）非參數檢驗一、配對：Wilcoxon符号-秩檢驗二、獨立樣本：Mann-Whitney U檢驗三、單因素ANOVA：Kruskal-Wallis檢驗

CRF介紹（轉自知乎）

參數估計、假設檢驗與回歸

Restricted cubic splines

資料分析系列：Z 檢驗和 T 檢驗的應用及代碼實作

資料的變量類型及其之間的關系

《商務與經濟統計》學習筆記(五)-點估計和區間估計

二項分布和多項分布

統計學基礎知識點刷題（task2）

統計學基礎知識點刷題（task1）

統計學基礎知識點刷題（task3）

奮戰聊天機器人（四）自然語言進行中的文本分類nltk中的貝葉斯分類器

Adaboost的原理、推導與執行個體

基于觀測變量的調節效應分析

比特币下跌與加密貨币的關聯效應（附代碼）

模組化筆記——标準化和歸一化标準化和歸一化的差別