在資料挖掘的學習中,遇到了中位數的概念,一GOOGLe之下,其實發現以前的課本等是沒學習到的,但現在的中國小生都有學了,
現在複習一下
中位數的含義
中位數是将資料按大小順序排列起來,形成一個數列,居于數列中間位置的那個資料就是中位數。中位數用Me表示。
從中位數的定義可知,所研究的資料中有一半小于中位數,一半大于中位數。中位數的作用與算術平均數相近,也是作為所研究資料的代表值。在一個等差數列或一個正态分布數列中,中位數就等于算術平均數。
在數列中出現了極端變量值的情況下,用中位數作為代表值要比用算術平均數更好,因為中位數不受極端變量值的影響;如果研究目的就是為了反映中間水準,當然也應該用中位數。在統計資料的處理和分析時,可結合使用中位數。
2. 中位數的計算
确定中位數,必須将總體各機關的标志值按大小順序排列,最好是編制出變量數列。這裡有兩種情況:
(1)對于未分組的原始資料,首先必須将标志值按大小排序。設排序的結果為:
則中位數就可以按下面的方式确定:如果值的個數為奇數則為中間值,為偶數則為中間兩個值的平均值
比如2 3 4 5 6 7 8這幾個數
其中位數就是5
又比如
2 3 4,5,6,7,8,9
則其中位數為(5+6)/2=5.5
(2)由分組資料确定中位數
由組距數列确定中位數,應先按 的公式求出中位數所在組的位置,然後再按下限公式或上限公式确定中位數。
式中: Me——中位數;
L——中位數所在組下限;
U——中位數所在組上限;
fm——為中位數所在組的次數;
西格馬F—總次數;
d——中位數所在組的組距;
Sm–1——中位數所在組以下的累計次數;
Sm+1——中位數所在組以上的累計次數。
比如:
Age frequency
1-5 200
5-15 450
15-20 300
20-50 1500
50-80 700
80-110 44
按照公式計算=
20+(3194/2-950)*(50-20)/1500=32.94
3194/2求出中位數在1500所在的那組,為20-50,該中位數以下的總數有200+450+30=950