描述性分析過程主要用于對連續變量做描述性分析,可以輸入多種類型的統計量,也可以将原始資料轉換成标準Z分值餅存入目前資料集。
基本統計量的計算與描述性分析簡介
描述性分析主要是針對資料進行基礎性描述,主要用于描述變量的基本特征。SPSS中的描述性分析過程可以生成相關的描述性統計量,如:均值、方差、标準差、全距、峰度和偏度,同時描述性分析過程還将原始資料轉換為Z分值并作為變量儲存,通過這些描述性統計量,我們可以對變量的綜合特征進行全面的了解。
表示集中趨勢的統計量
(1)均值
均值分析可以分為算數平均數、調和平均數以及集合平均數三種。
算數平均數 算術平均數是集中趨勢最常用、最重要的測度值。他是将總體标志總量處理總體機關總量而得到的均值。算是平均數的基本公式是:
算數平均數=總體标志總量/總體機關總量
根據掌握資料的表現形式不同,算數平均數有簡單算數平均數和權重算數平均數兩種。
簡單算數平均數是将總體個大内每一個标志值加總得到的标志總量初一機關總量而求出平均名額。其計算方法可以如公式:

簡單算數平均數适用于總體機關數較少的未分組資料。如果所給的資料是已經分組的次數分布數列,則算數平均數的計算應采用權重算數平均數的形式。
權重算數平均數是首先用各分組的标志值乘以相應的各組機關數求出各組的标志總量,并加總求得總體标志總量,而後再将總體标志總量和總體機關總量對比,其計算過程公式如下:
其中f表示各組的機關數,或者是頻數和權數。
調和平均數 調和平均數又稱倒數平均數,他是根據各變量值得導緻來計算的平均數。具體講,調和平均數是各變量值倒數的算數平均數的倒數。調和平均數的計算方法,根據資料的不同也有簡單和權重形式。
幾何平均數 幾何平均數是與算數平均數和調和平均數不同的另一種平均名額,它是幾何級的平均數。幾何平均數是計算平均比率或平均發展速度的最常用統計量,幾何平均數可以反映現象綜藝一般水準。根據掌握資料不同,幾何平均數也有簡單和權重形式。
(2)中位數
中位數是将總體機關某一變量的各個變量值按大小順序排列,處在數列中間位置的那個變量值就是中位數。
在資料未分組時,将各變量值按大小順序排列後,首先确定中位數的位置,可用公式(n+1)/2确定,n代表總體機關的項數;然後根據中點位置确定中位數。有兩種情況:當n為奇數項時,則中位數就是屬于中間位置的那個變量值;當n為偶數項時,則中位數是位于中間位置的兩個變量值的算數平均值。
(3)衆數
衆數是總體中出現次數最多的标志值,即最普遍、最常見的标志值。衆數隻有在總體機關較多而又明确的集中趨勢的資料中才有意義。單項數列中,出現最多的那個組的标志值就是衆數。若在數列中有兩個的次數是相同的,且次數最多,則就是雙衆數或複衆數。
(4)百分位數
如果将一組資料排序,并計算相應的累積百分位,則某一百分位對應資料的值稱為這一百分位的百分位數。常用的有四分為數,指的是講述分為四等分,分别位于25%,50%和75%處的分位數。百分位數适用于定序資料及更進階的資料,不能用于定類資料,百分位數的優點是不受極端值的影響。
表示離中趨勢的統計量
(1)方差與标準差
方差是總體各機關變量值與其算數平均數的離差平方的算數平均數,方差的平方根就是标準差,與方差不同的是,标準差是具有量綱的,與變量值的計量機關相同,其實際意義要比方差清楚。是以對社會經濟現象進行分析時,往往更懂的使用标準差。
根據所掌握的資料不同,方差和标準差的計算有兩種形式,簡單平均式和權重平均式。
在未分組資料情況下,簡單形式
在資料分組情況下,采用權重平均式
(2)均值标準誤差
均值标準誤差就是樣本均值的标準差,是描述樣本均值和總體均值平均偏差程度的統計量。
(3)極差或範圍
極差又稱全距,是總體樣本中最大變量值與最小變量值之差,即兩極之差,用R表示。
根據全距的大小來說明變量值波動範圍的大小
R=Xmax-Xmin
極差隻是利用了一組資料兩端的資訊,不能反映出中間資料的分散情況,是以不能準确描述出資料的分散程度,且易受極端值的影響。
(4)最大值
顧名思義,最大值即樣本資料中取最大的資料。
(5)最小值
即樣本資料中取值最小的資料。
(6)變異系數
變異系數是将标準差或平均差與其平均數對比所得的比值,又稱離散系數。計算公式
以上代表标準差系數和平均差系數。變異系數是一個無名數的數值,可用于比較不同數列的變異程度,其中,最常用的變異系數是标準差系數。
表示分布形态的統計量
(1)偏度
偏度是對分布偏斜方向及程度的測試。測量偏斜的程度需要計算偏态系數。這裡隻介紹中心矩偏态測度法。常用三階中心矩除以标準差的三次方,表示資料分布的相對偏斜程度,計算方法如下:
a3為正,表示分布右偏;為負,表示左偏。
(2)峰度
峰度是頻數分布曲線與正态分布相比較,頂端的尖峭程度。統計上常用四階中心矩測定峰度,計算公式如下:
當a4=3時,分布曲線為正态分布;
當a4<3時,分布曲線為平峰分布;
當a4>3時,分布曲線為尖峰分布。
其他相關的統計量
Z标準化得分
Z标準化得分是某一資料與平均數的距離以标準差為機關的測量值。其計算公式如下:
Zi即為Xi的Z标準得分。Z的标準化資料越大,說明它離平均數越遠。
标準化值不僅能表明各原始資料在一組資料分布中的相對位置,而且能在不同分布的各組原始資料間進行比較,同時還能接受代數方法的處理。是以标準化值在統計分析中起着重要的作用。
-----------------------------------------------------------SPSS描述性分析-----------------------------------------------------------
首先打開相應的資料檔案,或者建立一個資料檔案,就可以在SPSS資料編輯視窗進行描述性統計分析。
1)打開檔案,這裡使用SPSS安裝目錄下Demo/transaction,如下顯示:
在資料編輯視窗的菜單欄中選擇“分析”|“描述統計”|“描述”指令。
2)選擇變量
之後打開如下的對話框,從源變量中首先單擊需要描述的變量,然後單擊右箭頭按鈕,将需要描述的變量選入“變量”清單中,如下:
3)進行選項設定
單擊右側“選項”按鈕,彈出如下的“描述:選項”對話框。
“描述:選項”對話框主要用于指定需要輸入和計算的基本統計量和結果輸出的顯示順序,分4部分:
(1)“均值”和“合計”複選框 選中:“均值”複選框表示輸出變量的算數平均數。選中“合計”複選框表示輸出各個變量的合計數。
(2)“離散”選項組 該選項組主要用于輸出離中趨勢統計量,共有六個複選框:“标準差”、“方差”、“最小值”、“最大值”、“範圍”、“均值的标準誤”,選中這些複選框分别表示輸出變量的标準差、方差、最小值、最大值、範圍、均值的标準誤。
(3)“分布”選項組 該選項組主要用于輸出表示分布的統計量:
“峰度”複選框,選中該複選框表示輸出變量的峰度統計量。
“偏度”複選框,選中該複選框表示輸出變量的偏度統計量。
(4)“顯示順序”選項組 該選項組主要用于設定變量的排序過程。有以下4種選擇:
變量清單:選中表示按變量清單中的變量順序進行排列;
字母順序:選中表示按變量清單中的變量的首字母的順序排列;
按均值的升序排序:選中表示按變量清單中的變量的均值的升序排列;
按均值的降序排序:選中表示按變量清單中的變量的均值的降序排列。
其中,系統預設的基本統計量是“均值”、“标準差”、“最大值”、“最小值”和小時順序中的“變量清單”。
設定完畢後,單擊“繼續”按鈕,傳回到“描述性”對話框。
4)設定“将标準化得分另存為變量”複選框
如果選中該複選框,則表示為變量清單中的每一個要分析描述的變量計算Z标準化得分,并且系統會将每個變量的Z标準化得分儲存到資料檔案中(其中,新變量的命名方式是在原變量的變量名前加Z,如原變量名為“Amount”,則生成的新變量名為“ZAmount”。)
5)分析結果輸出
單擊“重置”按鈕,即可進行重新的選擇變量,重新設定“選項”。