天天看點

高斯分布(正态分布)

轉自:https://baike.baidu.com/item/%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83

正态分布(Normal distribution),也稱“常态分布”,又名 高斯分布(Gaussian distribution),最早由A.棣莫弗在求 二項分布的漸近公式中得到。C.F.高斯在研究測量誤差時從另一個角度導出了它。P.S.拉普拉斯和高斯研究了它的性質。是一個在 數學、實體及工程等領域都非常重要的 機率分布,在統計學的許多方面有着重大的影響力。 正态曲線呈鐘型,兩頭低,中間高,左右對稱因其曲線呈鐘形,是以人們又經常稱之為 鐘形曲線。 若 随機變量X服從一個 數學期望為μ、 方差為σ^2的正态分布,記為N(μ,σ^2)。其 機率密度函數為正态分布的 期望值μ決定了其位置,其 标準差σ決定了分布的幅度。當μ = 0,σ = 1時的正态分布是 标準正态分布。

中文名
正态分布
外文名
normal distribution
發現者
棣莫弗
所屬學科
機率論
又    名
高斯分布
應用領域
數學、實體及工程等領域

目錄

  1. 1 曆史發展
  2. 2 定理
  3. 3 定義
  4. ▪ 一維正态分布
  5. ▪ 标準正态分布
  1. 4 性質
  2. 5 分布曲線
  3. ▪ 圖形特征
  4. ▪ 參數含義
  5. 6 研究過程
  1. 7 曲線應用
  2. ▪ 綜述
  3. ▪ 頻數分布
  4. ▪ 綜合素質研究
  5. ▪ 醫學參考值

曆史發展

編輯 正态分布概念是由德國的數學家和天文學家Moivre于1733年首次提出的,但由于德國數學家Gauss率先将其應用于天文學家研究,故正态分布又叫高斯分布,高斯這項工作對後世的影響極大,他使正态分布同時有了“高斯分布”的名稱,後世之是以多将最小二乘法的發明權歸之于他,也是出于這一工作。但現今德國10馬克的印有高斯頭像的鈔票,其上還印有正态分布的 密度曲線。這傳達了一種想法:在高斯的一切科學貢獻中,其對 人類文明影響最大者,就是這一項。在高斯剛作出這個發現之初,也許人們還隻能從其理論的簡化上來評價其優越性,其全部影響還不能充分看出來。這要到20世紀正态小樣本理論充分發展起來以後。 拉普拉斯很快得知高斯的工作,并馬上将其與他發現的中心極限定理聯系起來,為此,他在即将發表的一篇文章(發表于1810年)上加上了一點補充,指出如若誤差可看成許多量的疊加,根據他的中心極限定理,誤差理應有 高斯分布。這是曆史上第一次提到所謂“元誤差學說”——誤差是由大量的、由種種原因産生的元誤差疊加而成。後來到1837年,海根(G.Hagen)在一篇論文中正式提出了這個學說。 其實,他提出的形式有相當大的局限性:海根把誤差設想成個數很多的、獨立同分布的“元誤差” 之和,每隻取兩值,其機率都是1/2,由此出發,按狄莫佛的中心極限定理,立即就得出誤差(近似地)服從正态分布。拉普拉斯所指出的這一點有重大的意義,在于他給誤差的正态理論一個更自然合理、更令人信服的解釋。因為,高斯的說法有一點循環論證的氣味:由于算術平均是優良的,推出誤差必須服從正态分布;反過來,由後一結論又推出算術平均及最小二乘估計的優良性,故必須 認定這二者之一(算術平均的優良性,誤差的正态性) 為出發點。但算術平均到底并沒有自行成立的理由,以它作為理論中一個預設的出發點,終覺有其不足之處。拉普拉斯的理論把這斷裂的一環連接配接起來,使之成為一個和諧的整體,實有着極重大的意義。

定理

編輯 由于一般的正态總體其圖像不一定關于y 軸對稱,對于任一正态總體,其取值小于x的機率。隻要會用它求正态總體在某個特定區間的機率即可。 為了便于描述和應用,常将正态變量作資料轉換。将一般正态分布轉化成标準正态分布。 [1]   若  

高斯分布(正态分布)

服從标準正态分布,通過查标準正态分布表就可以直接計算出原正态分布的機率值。故該變換被稱為标準化變換。(标準正态分布表:标準正态分布表中列出了标準正态曲線下從-∞到X(目前值)範圍内的面積比例。)

定義

編輯

一維正态分布

若 随機變量  

高斯分布(正态分布)

  服從一個位置參數為  

高斯分布(正态分布)

  、尺度參數為  

高斯分布(正态分布)

  的機率分布,且其 機率密度函數為 [2]  

高斯分布(正态分布)

則這個 随機變量就稱為 正态随機變量,正态随機變量服從的分布就稱為 正态分布,記作  

高斯分布(正态分布)

  ,讀作  

高斯分布(正态分布)

  服從  

高斯分布(正态分布)

  ,或  

高斯分布(正态分布)

  服從正态分布。 μ維随機 向量具有類似的機率規律時,稱此随機向量遵從多元正态分布。多元正态分布有很好的性質,例如,多元正态分布的邊緣分布仍為正态分布,它經任何 線性變換得到的随機向量仍為多元正态分布,特别它的線性組合為一進制正态分布。 本詞條的正态分布是一維正态分布,此外多元正态分布參見“ 二維正态分布”。

标準正态分布

當  

高斯分布(正态分布)

  時,正态分布就成為 标準正态分布

高斯分布(正态分布)

性質

編輯 正态分布的一些性質: [2]   (1)如果  

高斯分布(正态分布)

  且a與b是 實數,那麼  

高斯分布(正态分布)

  (參見 期望值和 方差)。 (2)如果  

高斯分布(正态分布)

  與  

高斯分布(正态分布)

  是 統計獨立的正态 随機變量,那麼: 它們的和也滿足正态分布  

高斯分布(正态分布)

它們的差也滿足正态分布  

高斯分布(正态分布)

U與V兩者是互相獨立的。(要求X與Y的方差相等) (3)如果  

高斯分布(正态分布)

  和  

高斯分布(正态分布)

  是獨立常态随機變量,那麼: 它們的積XY服從機率密度函數為p的分布

高斯分布(正态分布)

  其中  

高斯分布(正态分布)

  是修正貝塞爾函數(modified Bessel function) 它們的比符合 柯西分布,滿足  

高斯分布(正态分布)

(4)如果  

高斯分布(正态分布)

  為獨立标準常态随機變量,那麼  

高斯分布(正态分布)

  服從自由度為 n的 卡方分布。

分布曲線

編輯

圖形特征

集中性:正态曲線的高峰位于正中央,即 均數所在的位置。 對稱性:正态曲線以均數為中心,左右對稱,曲線兩端永遠不與 橫軸相交。 均勻變動性:正态曲線由均數所在處開始,分别向左右兩側逐漸均勻下降。 曲線與橫軸間的面積總等于1,相當于 機率密度函數的函數從正無窮到負無窮積分的機率為1。即頻率的總和為100%。

高斯分布(正态分布)

正态分布 關于μ對稱,并在μ處取最大值,在正(負)無窮遠處取值為0,在μ±σ處有 拐點,形狀呈現中間高兩邊低,正态分布的機率密度函數 曲線呈鐘形,是以人們又經常稱之為 鐘形曲線。

參數含義

正态分布有兩個參數,即期望(均數)μ和标準差σ,σ 2為方差。

高斯分布(正态分布)

正态分布公式 正态分布具有兩個參數μ和σ^2的 連續型随機變量的分布,第一參數μ是服從正态分布的随機變量的 均值,第二個參數σ^2是此随機變量的 方差,是以正态分布記作N(μ,σ 2)。 μ是正态分布的位置參數,描述正态分布的 集中趨勢位置。機率規律為取與μ鄰近的值的機率大,而取離μ越遠的值的機率越小。正态分布以X=μ為 對稱軸,左右完全對稱。正态分布的期望、 均數、 中位數、衆數相同,均等于μ。 σ描述正态分布資料資料分布的離散程度,σ越大,資料分布越分散,σ越小,資料分布越集中。也稱為是正态分布的形狀參數,σ越大,曲線越扁平,反之,σ越小,曲線越瘦高。 面積分布 1.實際工作中,正态曲線下橫軸上一定區間的面積反映該區間的例數占總例數的百分比,或變量值落在該區間的機率(機率分布)。不同 範圍内正态曲線下的面積可用公式計算。 ⒉正态曲線下, 橫軸區間(μ-σ,μ+σ)内的面積為68.268949%。 P{|X-μ|<σ}=2Φ(1)-1=0.6826 橫軸區間(μ-1.96σ,μ+1.96σ)内的面積為95.449974%。 P{|X-μ|<2σ}=2Φ(2)-1=0.9544 橫軸區間(μ-2.58σ,μ+2.58σ)内的面積為99.730020%。 P{|X-μ|<3σ}=2Φ(3)-1=0.9974 由于 “小機率事件”和 假設檢驗的基本思想 “小機率事件”通常指發生的機率小于5%的事件,認為在一次試驗中該事件是幾乎不可能發生的。由此可見X落在(μ-3σ,μ+3σ)以外的機率小于千分之三,在實際問題中常認為相應的事件是不會發生的,基本上可以把區間(μ-3σ,μ+3σ)看作是随機變量X實際可能的取值區間,這稱之為正态分布的“3σ”原則。

研究過程

編輯 概念及特征: 一、正态分布的概念 由一般分布的頻數表資料所繪制的直方圖,圖⑴可以看出,高峰位于中部,左右兩側大緻對稱。我們

高斯分布(正态分布)

正态分布研究圖1 設想,如果觀察例數逐漸增多,組段不斷分細,直方圖頂端的連線就會逐漸形成一條高峰位于中央(均數所在處),兩側逐漸降低且左右對稱,不與橫軸相交的光滑曲線圖⑶。這條曲線稱為 頻數曲線或 頻率曲線,近似于數學上的正态分布(normal distribution)。由于頻率的總和為100%或1,故該曲線下 橫軸上的面積為100%或1。 為了應用友善,常對正态分布變量 X作變量變換。

高斯分布(正态分布)

該變換使原來的正态分布 轉化為 标準正态分布(standard normal distribution),亦稱 u分布。 u被稱為标準 正态變量或标準正态 離差(standard normal deviate)。

高斯分布(正态分布)

正态分布研究圖2

高斯分布(正态分布)

正态分布研究圖3 實際工作中,常需要了解正态曲線下 橫軸上某一區間的面積占總面積的 百分數,以便估計該區間的例數占總例數的百分數( 頻數分布)或觀察值落在該區間的機率。正态曲線下一定區間的面積可以通過附表1求得。對于正态或近似正态分布的資料,已知 均數和标準差,就可對其頻數分布作出概約估計。 查附表1應注意:①表中曲線下面積為-∞到 u的左側累計面積;②當已知μ、σ和 X時先按式u=(X-μ)/σ求得 u值,再查表,當μ、σ未知且樣本含量 n足夠大時,可用樣本均數X1和标準差 S分别代替μ和σ,按u=(X-X1)/S式求得 u值,再查表;③曲線下對稱于0的區間面積相等,如區間(-∞,-1.96)與區間(1.96,∞)的面積相等,④曲線下橫軸上的總面積為100%或1。 圖2 正态曲線與标準正态曲線的面積分布 正态分布的應用某些醫學現象,如同質群體的身高、紅細胞數、血紅蛋白量、膽固醇等,以及實驗中的随機誤差,呈現為正态或近似正态分布;有些資料雖為偏态分布,但經資料變換後可成為正态或近似正态分布,故可按正态分布規律處理。

高斯分布(正态分布)

正态分布面積圖1

高斯分布(正态分布)

正态分布面積圖2 一般正态分布與标準正态分布的差別與聯系 正态分布也叫常态分布,是連續随機變量機率分布的一種,自然界、人類社會、心理和教育中大量現象均按正态形式分布,例如能力的高低,學生成績的好壞等都屬于正态分布。它随随機變量的平均數、标準差的大小與機關不同而有不同的分布形态。标準正态分布是正态分布的一種,其平均數和标準差都是固定的,平均數為0,标準差為1。

曲線應用

編輯

綜述

⒈ 估計頻數分布 一個服從正态分布的變量隻要知道其均數與标準差就可根據公式即可估計任意取值範圍内頻數比例。 [4]   ⒉ 制定參考值範圍 ⑴正态分布法 适用于服從正态(或近似正态)分布名額以及可以通過轉換後服從正态分布的名額。 ⑵百分位數法 常用于偏态分布的名額。表3-1中兩種方法的單雙側界值都應熟練掌握。 ⒊ 品質控制:為了控制實驗中的測量(或實驗)誤差,常以 作為上、下警戒值,以 作為上、下控制值。這樣做的依據是:正常情況下測量(或實驗)誤差服從正态分布。 ⒋ 正态分布是許多統計方法的理論基礎。檢驗、 方差分析、相關和 回歸分析等多種 統計方法均要求分析的名額服從正态分布。許多統計方法雖然不要求分析名額服從正态分布,但相應的 統計量在大樣本時近似正态分布,因而大樣本時這些 統計推斷方法也是以正态分布為理論基礎的。

頻數分布

例1.10 某地1993年抽樣調查了100名18歲男大學生身高(cm),其均數=172.70cm,标準差s=4.01cm,①估計該地18歲男大學生身高在168cm以下者占該地18歲男大學生總數的百分數;②分别求X+-1s、X+-1.96s、X+-2.58s範圍内18歲男大學生占該地18歲男大學生總數的實際百分數,并與理論百分數比較。 本例,μ、σ未知但樣本含量 n較大,按式(3.1)用樣本均數X和 标準差 S分别代替μ和σ,求得 u值, u=(168-172.70)/4.01=-1.17。查附表标準正态曲線下的面積,在表的左側找到-1.1,表的上方找到0.07,兩者相交處為0.1210=12.10%。該地18歲男大學生身高在168cm以下者,約占總數12.10%。其它計算結果見表3。 表3 100名18歲男大學生身高的實際分布與理論分布

分布 x+-s 身高範圍(cm) 實際分布 人數 實際分布 百分數(%) 理論分布(%)
X+-1s 168.69~176.71 67 67.00 68.27
X +-1.96s 164.84~180.56 95 95.00 95.00
X+-2.58s 162.35~183.05 99 99.00 99.00

綜合素質研究

教育統計學統計規律表明,學生的智力水準,包括學習能力,實際動手能力等呈正态分布。因而正常的考試成績分布應基本服從正态分布。考試分析要求繪制出學生成績分布的直方圖,以“中間高、兩頭低”來衡量成績符合正态分布的程度。其評價标準認為:考生成績分布情況直方圖,基本呈正态曲線狀,屬于好,如果略呈正(負)态狀,屬于中等,如果呈嚴重偏态或無規律,就是差的。 從機率統計規律看,“正常的考試成績分布應基本服從正态分布”是正确的。但是必須考慮人與物的本質不同,以及教育的有所作為可以使“随機”受到幹預,用曲線或直方圖的形狀來評價考試成績就有失偏頗。許多教育專家(如上海顧泠沅、美國布魯姆等)已經通過實踐論證,教育是可以大有作為的,可以做到大多數學生及格,而且多數學生可以得高分,考試成績曲線是偏正态分布的。但是長期受到“中間高、兩頭低”标準的影響,限制了教師的作為,抑制了多數學生能夠學好的信心。這是很大的誤會。通常正态曲線有一條對稱軸。當某個分數(或分數段)的考生人數最多時,對應曲線的最高點,是曲線的頂點。該 分數值在 橫軸上的對應點與頂點連接配接的 線段就是該正态曲線的 對稱軸。考生人數最多的值是峰值。我們注意到,成績曲線或直方圖實際上很少對稱的,稱之為峰線更合适。

醫學參考值

某些醫學現象,如同質群體的身高、紅細胞數、血紅蛋白量,以及實驗中的 随機誤差,呈現為正态或近似正态分布;有些名額(變量)雖服從 偏态分布,但經資料轉換後的新變量可服從正态或近似正态分布,可按正态分布規律處理。其中經對數轉換後服從正态分布的名額,被稱為服從對數正态分布。 醫學參考值範圍亦稱醫學正常值範圍。它是指所謂“正常人”的解剖、生理、生化等名額的波動範圍。制定正常值範圍時,首先要确定一批樣本含量足夠大的“正常人”,所謂“正常人”不是指“健康人”,而是指排除了影響所研究名額的疾病和有關因素的同質人群;其次需根據研究目的和使用要求標明适當的百分界值,如80%,90%,95%和99%,常用95%;根據名額的實際用途确定單側或雙側界值,如 白細胞計數過高過低皆屬不正常須确定雙側界值,又如肝功中轉氨酶過高屬不正常須确定單側上界,肺活量過低屬不正常須确定單側下界。另外,還要根據資料的分布特點,選用恰當的計算方法。常用方法有: ⑴正态分布法:适用于正态或近似正态分布的資料。 雙側界值:X+-u(u) S單側上界:X+u(u) S,或單側下界:X-u(u) S ⑵對數正态分布法:适用于對數正态分布資料。 雙側界值:lg-1[X(lgx)+-u(u)S(lgx)];單側上界:lg-1[X(lgx)+u(u)S(lgx)],或單側下界:lg-1[X(lgx)-u(u)S(lgx)]。 常用 u值可根據要求由表4查出。 ⑶百分位數法:常用于偏态分布資料以及資料中一端或兩端無确切數值的資料。 雙側界值: P2.5和 P97.5;單側上界: P95,或單側下界: P5。 表4常用 u值表

參考值範圍(%) 單側 雙側
80 0.842 1.282
90 1.282 1.645
95 1.645 1.960
99 2.326 2.576

統計的理論基礎 如t分布、F分布、分布都是在正态分布的基礎上推導出來的,u檢驗也是以正态分布為基礎的。此外,t分布、 二項分布、Poisson分布的極限為正态分布,在一定條件下,可以按正态分布原理來處理。 機率論中最重要的分布 正态分布有極其廣泛的實際背景,生産與科學實驗中很多随機變量的機率分布都可以近似地用正态分布來描述。例如,在生産條件不變的情況下,産品的強力、 抗壓強度、口徑、長度等名額;同一種生物體的身長、體重等名額;同一種種子的重量;測量同一物體的誤差;彈着點沿某一方向的偏差;某個地區的年降水量;以及理想氣體分子的速度分量,等等。一般來說,如果一個量是由許多微小的獨立随機因素影響的結果,那麼就可以認為這個量具有正态分布(見 中心極限定理)。從理論上看,正态分布具有很多良好的性質 ,許多 機率分布可以用它來近似;還有一些常用的機率分布是由它直接導出的,例如 對數正态分布、 t分布、F分布等。 主要内涵 在聯系自然、社會和思維的實踐背景下,我們以正态分布的本質為基礎,以正态分布曲線及面積分布圖為表征(以後談及正态分布及正态分布論就要浮現此圖),進行抽象與提升,抓住其中的主要哲學内涵,歸納正态分布論(正态哲學)的主要内涵如下: 整體論 正态分布啟示我們,要用整體的觀點來看事物。“系統的整體觀念或總體觀念是系統概念的精髓。” 正态分布曲線及面積分布圖由 基區、負區、正區三個區組成,各區比重不一樣。用整體來看事物才能看清楚事物的本來面貌,才能得出事物的根本特性。不能隻見樹木不見森林,也不能以偏概全。此外整體大于部分之和,在分析各部分、各層次的基礎上,還要從整體看事物,這是因為整體有不同于各部分的特點。用整體觀來看世界,就是要立足在基區,放眼負區和正區。要看到主要方面,還要看到次要方面,既要看到積極的方面還要看到事物消極的一面,看到事物前進的一面還要看到落後的一面。片面看事物必然看到的是 偏态或者是變态的事物,不是真實的事物本身。 重點論 正态分布曲線及面積分布圖非常清晰的展示了重點,那就是基區占68.27%,是主體,要重點抓,此外95%,99%則展示了正态的全面性。認識世界和改造世界一定要住住重點,因為重點就是事物的主要沖突,它對事物的發展起主要的、支配性的作用。抓住了重點才能一舉其綱,萬目皆張。事物和現象紛繁複雜,在千頭萬緒中不抓住主要沖突,就會陷入無限瑣碎之中。由于我們時間和精力的相對有限性,出于效率的追求,我們更應該抓住重點。在正态分布中,基區占了主體和重點。如果我們結合 20/80法則,我們更可以大膽的把正區也可以看做是重點。 發展論 聯系和發展是事物發展變化的基本規律。任何事物都有其産生、發展和滅亡的曆史,如果我們把正态分布看做是任何一個系統或者事物的發展過程的話,我們明顯的看到這個過程經曆着從負區到基區再到正區的過程。無論是自然、社會還是人類的思維都明顯的遵循這這樣一個過程。準确的把握事物或者事件所處的曆史過程和階段極大的有助于掌握我們對事物、事件的特征和性質,是我們分析問題,采取對策和解決問題的重要基礎和依據。發展的階段不同,性質和特征也不同,分析和解決問題的辦法要與此相适應,這就是 具體問題具體分析,也是解放思想、實事求是、與時俱樂進的精髓。正态發展的特點還啟示我們,事物發展大都是漸進的和累積的,走漸進發展的道路是事物發展的常态。例如,遺傳是常态,變異是非常态。 總之,正态分布論是科學的世界觀,也是科學的方法論,是我們認識和改造世界的最重要和最根本的工具之一,對我們的理論和實踐有重要的指導意義。以正态哲學認識世界,能更好的認識和把握世界的本質和規律,以正态哲學來改造世界,能更好的在尊重和利用客觀規律,更有效的改造世界。 弗朗西斯弗朗西斯·高爾頓 [Francis Galton 1822.02.16-1911.01.17],英國探險家、優生學家、心理學家,差異心理學之父,也是心理測量學上生理計量法的創始人。 高而頓對心理學的貢獻,大概可以歸納未差異心理學、心理測量的量化和實驗心理學三方面: 心理學研究之量化,始自高爾頓。他發明了許多感官和運動的測試,并以數量代表所測得的心理特質之差異。他認為人的所有特質,不管是物質的還是精神的,最終都可以定量叙述,這是實作人類科學的必要條件,故最先應用統計法處理心理學研究資料,重視資料的平均數與高中差數。他收集了大量資料證明人的心理特質在人口中的分布如同身高、體重那樣符合 正态分布曲線。他在論及遺傳對個體差異的影響時,為 相關系數的概念作了初步提示。如他研究了“居間親”和其成年子女的身高關系,發現居間親和其子女的身高有正相關,即父母的身材較高,其子女的身材也有較高的趨勢。反之,父母的身材較低,其子女也有較矮的趨勢。同時發現子女的身高常與其父母略有差别,而呈現“回中”趨勢,即離開其父母的身高數,而回到一般人身高的 平均數。 智力、能力 理查德·赫恩斯坦 [(Richard J. Herrnstein 1930.05.20-1994.09.13),美國比較心理學家]和默瑞(Charles Murray)合著《正态曲線》一書而聞名,在該書中他們指出人們的智力呈 正态分布。智力主要是遺傳的并因種族的不同而不同,猶太人、東亞人的智商最高,其次為白人,表現最差的是黑人、西班牙裔人。他們檢讨了數十年來心理計量學與政策學的研究成果,發現美國社會輕忽了智商的影響愈變愈大的趨勢。他們力圖證明,美國現行的偏向于以非洲裔和南美裔為主的低收入階層的社會政策,如職業教育訓練、大學教育等,完全是在浪費資源。他們利用應募入伍者的測試結果證明,黑人青年的智力低于白人和 黃種人;而且,這些人的智力已經定型,對他們進行教育訓練收效甚微。是以,政府應該放棄對這部分人的教育,把錢用于包括所有種族在内的啟蒙教育,因為孩子的智力尚未定型,開發潛力大。由于此書涉及黑人的智力問題,一經出版便受到來自四面八方的圍攻。

繼續閱讀