遷移到:http://www.bdata-cap.com/newsinfo/1741415.html
本文内容
- 分位數
- 中位數
- 四分位數
- 百分位數
- 參考資料
- 示範
分位數(Quantile),也稱分位點,是指将一個随機變量的機率分布範圍分為幾個等份的數值點,分析其資料變量的趨勢。常用的有中位數、四分位數、百分位數等。
中位數(Medians)是一個統計學的專有名詞,代表一個樣本、種群或機率分布中的一個數值,可以将數值集合劃分為相等的兩部分,即,若設連續随機變量 X 的分布函數為 F(X),那麼滿足條件 F(X)=1/2 ,稱為 X 或分布 F 的中位數。中位數是用來衡量集中趨勢的方法。對于一個有限的、有序的數集,位于中間位置的那個數值就是中位數,用 Me 表示。
中位數可以擴充到四分位數,即中位數再取中位數,變成四分位數。
若設連續随機變量 X 的分布函數為 F(X),那麼滿足條件 F(X)=1/4 ,稱為 X 或分布 F 的四分位數。四分位數通常用箱形圖(Box Plots)表示。箱形圖能顯示出一組資料的最大值(Maximum)、最小值(Minimum)、中位數(Q2)、下四分位數(Q1)及上四分位數(Q3)。
四分位描述為,将 n 個數從小到大排列 xn=(x1,x2,x3,…,xn),那麼 Q1,Q2,Q3 的位置 L:
當計算的位置為小數時,即 n 為奇數,其四分位數将在後面示例中介紹。
箱形圖
箱形圖是于 1977年由美國著名統計學家約翰·圖基(John Tukey)發明,如下所示:
圖 1 箱形圖
這組資料顯示出:
- 最小值(Minimum)為 5
- 下四分位數(Q1)為 7
- 中位數(Q2,Median)為 8.5
- 上四分位數(Q3)為 9
- 最大值(Maximum)為 10
- 平均值為 8
- 四分位間距(Inter-quartile range,IQR)為 Q3-Q1=2,即 ΔQ,在區間 Q1-1.5ΔQ,Q3+1.5ΔQ 之外的值被視為應忽略(farout)。
- farout:在圖上不予顯示,僅标注一個符号。
- 最大值區間: Q3+1.5ΔQ
- 最小值區間: Q1-1.5ΔQ
- 最大值與最小值産生于這個區間。區間外的值被視為 outlier 顯示在圖上。
- mild outlier 為 3.5
- extreme outlier 為 0.5
圖 2 正态分布 N(0,1σ2) 的箱形圖和機率密度函數
不論 Q1,Q2,Q3 的變異量數數值為何,均視為一個分界點,以此将總數分成四個相等部分,可以通過 Q1 和 Q3 比較,分析其資料變量的趨勢。
示例 1
某工廠中的房間某月份的勞工生産某産品的數量分别為 x=(13, 13.5, 13.8, 13.9, 14, 14.6, 14.8, 15, 15.2, 15.4, 15.7) 公斤,則三個四分位數的位置分别為:
即數組第3、第6、第9個勞工的某種産品産量分别為下四分位數、中位數和上四分位數為:
Q1 = 13.8 公斤、Q2 = 14.6 公斤、Q3 = 15.2 公斤
示例 2
某工廠中的房間某月份的勞工生産某産品的數量分别為 x=(13, 13.5, 13.8, 13.9, 14, 14.6, 14.8, 15, 15.2, 15.4) 公斤,則三個四分位數的位置分别為:
即數組中的第 2.75 項、第 5.5 項、第 8.25 項分别為下四分位數、中位數和上四分位數。即:
Q1=0.25×第2項+0.75×第3項=0.25×13.5+0.75×13.8=13.73 (公斤)
Q2=0.5×第5項+0.5×第6項=0.5×14+0.5×14.6=14.3 (公斤)
Q3=0.75×第8項+0.25×第9項=0.75×15+0.25×15.2=15.05 (公斤)
若(n+1)為 4 的倍數,則确定四分數很簡單;否則,若不是 4 的倍數,即小數,則四分位數是該小數的最大整數和最小整數位置上的值的平均數。
另外,權重的大小取決于兩個整數位置距離的遠近,距離越近,權數越大,距離越遠,權數越小,權數之和等于 1。
示例 3
若有有序數組 x=(17, 19, 22, 24, 25, 28, 34),則四分位數:
Q1 的位置= (n + 1) / 4 = (7 + 1) / 4 = 2
Q3 的位置= 3*(n + 1) / 4 = 3*(7 + 1) / 4 = 6
則 Q1 與 Q3 分别為 19 和 28;IQR 四分位差為 Q3 − Q1=28-19=9
說明 50% 的資料集中在 19~28 之間,最大差異為 9。
百分位數又稱百分位分數(percentile),是一種相對地位量數,它是次數分布(Frequency Distribution,頻數分布)中的一個點。把一個次數分布排序後,分為 100 個機關,百分位數就是次數分布中相對于某個特定百分點的原始分數,它表明在次數分布中特定個案百分比低于該分數。百分位數用P加下标 m(特定百分點)表示。譬如,若P30等于60,則其表明在該次數分布中有 30% 的個案低于 60 分。
百分位數運用在教育統計學中,如表現測驗成績時,又稱 PR 值(Percentile ranks),用于描述一組資料某一百分位置的水準,多個百分位數結合應用,可全面描述一組觀察值的分布特征;百分位數還可用于确定非正态分布資料的醫學參考值範圍。但應用百分位數時,樣本含量要足夠大,否則不宜取太靠近兩端的百分位數。
計算公式為:
其中,
- Pm:第 m 百分位數;
- L:Pm所在組的組實下限;
- U:Pm所在組的組實上限;
- f:Pm所在組的次數;
- Fb:小于 L 的累積次數;
- Fa:大于 U 的累積次數。
某省某年公務員考試考生分數分布如下表所示,預定取考分居前 15% 的考生進行面試,請劃定面試分數線。
分數分組 | 次數 | 向上累積次數 | 向下累積次數 | 向上累積相對次數 |
95~99 | 7 | 1640 | 100% | |
90~94 | 16 | 1633 | 23 | 99.57% |
85~89 | 53 | 1617 | 76 | 98.60% |
80~84 | 78 | 1564 | 154 | 95.37% |
75~79 | 90 | 1486 | 244 | 90.61% |
70~74 | 119 | l396 | 363 | 85.12% |
65~69 | 159 | 1277 | 522 | 77.87% |
60~64 | 156 | 1118 | 678 | 68.17% |
55~59 | 140 | 962 | 818 | 58.66% |
50~54 | 145 | 822 | 963 | 50.12% |
45~49 | 677 | 1103 | 41.28% | |
40~44 | 135 | 537 | 1238 | 32.74% |
35~39 | 130 | 402 | 1368 | 24.51% |
30~34 | 126 | 272 | 1494 | 16.59% |
25~29 | 146 | 1572 | 8.90% | |
20~24 | 25 | 68 | 1597 | 4.15% |
15~19 | 20 | 43 | 2.62% | |
10~14 | 1.40% | |||
5~9 | 0.43% |
由于預定取考分居前 15% 的考生進行面試,即有85%的考生分數低于劃定的分數線,由此可知,分數線在 70~74 這一組中。
- D3 box plot 示範
- Wiki 四分位數
- MBALib 四分位
- Wiki 百分位數
- baidu 四分位數
- Wiki 箱形圖
- Wiki 統計學
- MBALib 次數分布
下載下傳 Demo