天天看點

資料挖掘中的中位數

  在資料挖掘的學習中,遇到了中位數的概念,一GOOGLe之下,其實發現以前的課本等是沒學習到的,但現在的中國小生都有學了,

現在複習一下

中位數的含義

中位數是将資料按大小順序排列起來,形成一個數列,居于數列中間位置的那個資料就是中位數。中位數用Me表示。

從中位數的定義可知,所研究的資料中有一半小于中位數,一半大于中位數。中位數的作用與算術平均數相近,也是作為所研究資料的代表值。在一個等差數列或一個正态分布數列中,中位數就等于算術平均數。

在數列中出現了極端變量值的情況下,用中位數作為代表值要比用算術平均數更好,因為中位數不受極端變量值的影響;如果研究目的就是為了反映中間水準,當然也應該用中位數。在統計資料的處理和分析時,可結合使用中位數。

2. 中位數的計算

确定中位數,必須将總體各機關的标志值按大小順序排列,最好是編制出變量數列。這裡有兩種情況:

(1)對于未分組的原始資料,首先必須将标志值按大小排序。設排序的結果為:

則中位數就可以按下面的方式确定:如果值的個數為奇數則為中間值,為偶數則為中間兩個值的平均值 

    比如2 3 4 5 6 7 8這幾個數

     其中位數就是5

 又比如

2 3 4,5,6,7,8,9

則其中位數為(5+6)/2=5.5

(2)由分組資料确定中位數

由組距數列确定中位數,應先按 的公式求出中位數所在組的位置,然後再按下限公式或上限公式确定中位數。

資料挖掘中的中位數

式中: Me——中位數;

L——中位數所在組下限;

U——中位數所在組上限;

fm——為中位數所在組的次數;

西格馬F—總次數;

d——中位數所在組的組距;

Sm–1——中位數所在組以下的累計次數;

Sm+1——中位數所在組以上的累計次數。

比如:

Age                                     frequency

1-5                                             200

5-15                                         450

15-20                                     300

20-50                                     1500

50-80                                     700

80-110                                    44

    按照公式計算= 

20+(3194/2-950)*(50-20)/1500=32.94

  3194/2求出中位數在1500所在的那組,為20-50,該中位數以下的總數有200+450+30=950

繼續閱讀