天天看點

分位數 http://www.bdata-cap.com/newsinfo/1741415.html

遷移到:http://www.bdata-cap.com/newsinfo/1741415.html

本文内容

  • 分位數
  • 中位數
  • 四分位數
  • 百分位數
  • 參考資料
  • 示範

分位數(Quantile),也稱分位點,是指将一個随機變量的機率分布範圍分為幾個等份的數值點,分析其資料變量的趨勢。常用的有中位數、四分位數、百分位數等。

中位數(Medians)是一個統計學的專有名詞,代表一個樣本、種群或機率分布中的一個數值,可以将數值集合劃分為相等的兩部分,即,若設連續随機變量 X 的分布函數為 F(X),那麼滿足條件 F(X)=1/2 ,稱為 X 或分布 F 的中位數。中位數是用來衡量集中趨勢的方法。對于一個有限的、有序的數集,位于中間位置的那個數值就是中位數,用 Me 表示。

中位數可以擴充到四分位數,即中位數再取中位數,變成四分位數。

若設連續随機變量 X 的分布函數為 F(X),那麼滿足條件 F(X)=1/4 ,稱為 X 或分布 F  的四分位數。四分位數通常用箱形圖(Box Plots)表示。箱形圖能顯示出一組資料的最大值(Maximum)、最小值(Minimum)、中位數(Q2)、下四分位數(Q1)及上四分位數(Q3)。

四分位描述為,将 n 個數從小到大排列 xn=(x1,x2,x3,…,xn),那麼 Q1,Q2,Q3 的位置 L:

分位數 http://www.bdata-cap.com/newsinfo/1741415.html
分位數 http://www.bdata-cap.com/newsinfo/1741415.html
分位數 http://www.bdata-cap.com/newsinfo/1741415.html
當計算的位置為小數時,即 n 為奇數,其四分位數将在後面示例中介紹。

箱形圖

箱形圖是于 1977年由美國著名統計學家約翰·圖基(John Tukey)發明,如下所示:

分位數 http://www.bdata-cap.com/newsinfo/1741415.html

圖 1 箱形圖

這組資料顯示出:

  • 最小值(Minimum)為 5
  • 下四分位數(Q1)為 7
  • 中位數(Q2,Median)為 8.5
  • 上四分位數(Q3)為 9
  • 最大值(Maximum)為 10
  • 平均值為 8
  • 四分位間距(Inter-quartile range,IQR)為 Q3-Q1=2,即 ΔQ,在區間 Q1-1.5ΔQ,Q3+1.5ΔQ 之外的值被視為應忽略(farout)。
    • farout:在圖上不予顯示,僅标注一個符号。
    • 最大值區間: Q3+1.5ΔQ
    • 最小值區間: Q1-1.5ΔQ
  • 最大值與最小值産生于這個區間。區間外的值被視為 outlier 顯示在圖上。
    • mild outlier 為 3.5
    • extreme outlier 為 0.5
分位數 http://www.bdata-cap.com/newsinfo/1741415.html

圖 2 正态分布 N(0,1σ2) 的箱形圖和機率密度函數

不論 Q1,Q2,Q3 的變異量數數值為何,均視為一個分界點,以此将總數分成四個相等部分,可以通過 Q1 和 Q3 比較,分析其資料變量的趨勢。

示例 1

某工廠中的房間某月份的勞工生産某産品的數量分别為 x=(13, 13.5, 13.8, 13.9, 14, 14.6, 14.8, 15, 15.2, 15.4, 15.7) 公斤,則三個四分位數的位置分别為:

分位數 http://www.bdata-cap.com/newsinfo/1741415.html
分位數 http://www.bdata-cap.com/newsinfo/1741415.html
分位數 http://www.bdata-cap.com/newsinfo/1741415.html

即數組第3、第6、第9個勞工的某種産品産量分别為下四分位數、中位數和上四分位數為:

Q1 = 13.8 公斤、Q2 = 14.6 公斤、Q3 = 15.2 公斤

示例 2

某工廠中的房間某月份的勞工生産某産品的數量分别為 x=(13, 13.5, 13.8, 13.9, 14, 14.6, 14.8, 15, 15.2, 15.4) 公斤,則三個四分位數的位置分别為:

分位數 http://www.bdata-cap.com/newsinfo/1741415.html
分位數 http://www.bdata-cap.com/newsinfo/1741415.html
分位數 http://www.bdata-cap.com/newsinfo/1741415.html

即數組中的第 2.75 項、第 5.5 項、第 8.25 項分别為下四分位數、中位數和上四分位數。即:

Q1=0.25×第2項+0.75×第3項=0.25×13.5+0.75×13.8=13.73 (公斤)

Q2=0.5×第5項+0.5×第6項=0.5×14+0.5×14.6=14.3 (公斤)

Q3=0.75×第8項+0.25×第9項=0.75×15+0.25×15.2=15.05 (公斤)

若(n+1)為 4 的倍數,則确定四分數很簡單;否則,若不是 4 的倍數,即小數,則四分位數是該小數的最大整數和最小整數位置上的值的平均數。

另外,權重的大小取決于兩個整數位置距離的遠近,距離越近,權數越大,距離越遠,權數越小,權數之和等于 1。

示例 3

若有有序數組 x=(17, 19, 22, 24, 25, 28, 34),則四分位數:

Q1 的位置= (n + 1) / 4 = (7 + 1) / 4 = 2

Q3 的位置= 3*(n + 1) / 4 = 3*(7 + 1) / 4 = 6

則 Q1 與 Q3 分别為 19 和 28;IQR 四分位差為 Q3 − Q1=28-19=9

說明 50% 的資料集中在 19~28 之間,最大差異為 9。

百分位數又稱百分位分數(percentile),是一種相對地位量數,它是次數分布(Frequency Distribution,頻數分布)中的一個點。把一個次數分布排序後,分為 100 個機關,百分位數就是次數分布中相對于某個特定百分點的原始分數,它表明在次數分布中特定個案百分比低于該分數。百分位數用P加下标 m(特定百分點)表示。譬如,若P30等于60,則其表明在該次數分布中有 30% 的個案低于 60 分。

百分位數運用在教育統計學中,如表現測驗成績時,又稱 PR 值(Percentile ranks),用于描述一組資料某一百分位置的水準,多個百分位數結合應用,可全面描述一組觀察值的分布特征;百分位數還可用于确定非正态分布資料的醫學參考值範圍。但應用百分位數時,樣本含量要足夠大,否則不宜取太靠近兩端的百分位數。

計算公式為:

分位數 http://www.bdata-cap.com/newsinfo/1741415.html
分位數 http://www.bdata-cap.com/newsinfo/1741415.html

其中,

  • Pm:第 m 百分位數;
  • L:Pm所在組的組實下限;
  • U:Pm所在組的組實上限;
  • f:Pm所在組的次數;
  • Fb:小于 L 的累積次數;
  • Fa:大于 U 的累積次數。

某省某年公務員考試考生分數分布如下表所示,預定取考分居前 15% 的考生進行面試,請劃定面試分數線。

分數分組 次數 向上累積次數 向下累積次數 向上累積相對次數
95~99 7 1640 100%
90~94 16 1633 23 99.57%
85~89 53 1617 76 98.60%
80~84 78 1564 154 95.37%
75~79 90 1486 244 90.61%
70~74 119 l396 363 85.12%
65~69 159 1277 522 77.87%
60~64 156 1118 678 68.17%
55~59 140 962 818 58.66%
50~54 145 822 963 50.12%
45~49 677 1103 41.28%
40~44 135 537 1238 32.74%
35~39 130 402 1368 24.51%
30~34 126 272 1494 16.59%
25~29 146 1572 8.90%
20~24 25 68 1597 4.15%
15~19 20 43 2.62%
10~14 1.40%
5~9 0.43%

由于預定取考分居前 15% 的考生進行面試,即有85%的考生分數低于劃定的分數線,由此可知,分數線在 70~74 這一組中。

分位數 http://www.bdata-cap.com/newsinfo/1741415.html

  • D3 box plot 示範
  • Wiki 四分位數
  • MBALib 四分位
  • Wiki 百分位數
  • baidu 四分位數
  • Wiki 箱形圖
  • Wiki 統計學
  • MBALib 次數分布

下載下傳 Demo