天天看點

sas univariate 結果解釋_SAS統計之描述性統計分析

sas univariate 結果解釋_SAS統計之描述性統計分析

本文來闡述統計學基本的描述性統計分析在SAS軟體内的實作方法與案例解讀,首先大概過一遍統計學基本的描述性統計。

描述性統計就是利用手裡已有的資料,分析資料的集中趨勢和離散趨勢,總體來說在統計學内資料可以分為以下三種類型:

一:分類資料,又名定性資料或者品質資料。這是一種非數字型資料。比如人口按照性别分可以分為男、女,企業可以按照行業屬性分為:網際網路企業、醫藥企業、家電企業等等。當然日常統計中為了友善起見,我們可以将這些變量賦予一個不支援加減乘除運算的數字(這兒說的不支援是因為對其進行加減乘除沒有什麼實際意義),例如人口按照性别分類中我們可以将男記為0,女記為1(當然反過來男1女0也是可以的)。

二:順序資料。它是分類資料的一種,但是!!!它的變量是有順序的,或者說它的變量是有重要和不重要之分的!! 例如,一個學生的考試成績我們可以用:優、良、中、及格、不及格來表示,這兒有着明顯的主次順序,即優>良>中>及格>不及格(當然你想反過來不及格<及格...)也沒問題。同樣在日常的統計中,為了友善(反正就一個原則,怎麼友善怎麼來),将其賦予一個不支援加減乘除運算的數字,優——1,良——2,中——3,及格——4,不及格——5。

三:數值型資料,又名定量資料,其變量為數值形式的變量。故名思意,這是一種數值資料。而數值型資料中的變量又可以分為兩類:

1,離散型變量

這些變量一般以整數的形式出現,可以一一列舉。舉個簡單的例子:不同城市的企業數量,這些資料一定是數值型資料,這就是離散型變量,它的特點是你隻能取它的整數值,也就是說你可以說其中一個城市有100家企業,但是你要是說這個城市有100.5家企業,這就沒有什麼意義了,因為我們都知道0.5家企業這是不存在的。同理的還有産品數量、汽車産量等等。

2,,連續型變量

與離散型變量相對應,這些變量可以取小數部分。比如一個城市所有人的平均身高,它可以是175cm,也可以是175.1cm或者175.2cm,這都是沒問題的。這一類連續變化的變量我們就稱之為連續型變量。

接下來介紹資料集中趨勢和資料離散趨勢的度量方法。

一:資料的集中趨勢

1,衆數:一組資料中出現最多的變量即為衆數。

2,分位數:常用的有中位數(即二分位數)、四分位數、百分位數等,定義為分位數(n分位數)通過n-1個資料點将我們的資料平均分為了n份

3,平均數:平均數可以分為三類

1)簡單平均數:公式為

sas univariate 結果解釋_SAS統計之描述性統計分析

2)權重平均數(針對分組資料),公式為

sas univariate 結果解釋_SAS統計之描述性統計分析

這兒的 Mi 指的是分組資料第 i 組的中位數, fi 為頻數

3)幾何平均數,公式為

sas univariate 結果解釋_SAS統計之描述性統計分析

衆數,中位數,平均數之間顯示資料的集中趨勢與分布,如下圖所示

sas univariate 結果解釋_SAS統計之描述性統計分析

二:資料的離散趨勢

離散趨勢,就是資料的分散程度,一下按照資料類型進行闡述

1.分類資料

分類資料的集中趨勢可以使用衆數來表示,離散趨勢也與衆數有關,統計學内有一個名為異衆比率的值來描述我們分類資料的分散程度。定義如下:

異衆比率指的是總體中非衆數次數與總體全部次數之比,常常使用Vr來表示

假設我們有N個樣本值,樣本存在一個衆數c,且衆數的個數為n,則我們的異衆比率

sas univariate 結果解釋_SAS統計之描述性統計分析

當N不變時,衆數的個數(頻數)n越大,異衆比率越小,資料越往衆數這個值集中。

2,順序資料

順序資料由于存在衆數與分位數兩種集中趨勢的度量,故而我們可以使用異衆比率來描述其離散趨勢,也可以使用四分位距來表示資料的離散程度:四分位距(interquartile range, IQR),又稱四分差。是描述統計學中的一種方法,以确定第三四分位數(上分位數)和第一二分位數(下分位數)的差別。

sas univariate 結果解釋_SAS統計之描述性統計分析

箱線圖形狀如下圖所示:

sas univariate 結果解釋_SAS統計之描述性統計分析

上圖中我們可以得到如下資訊:

由于我們的四分位距IQR中集中了我們50%的資料,是以箱線圖的寬度越大(IQR越大),則我們的資料越分散,是以圖中資料相對較為集中;

上邊緣到中位數距離小于下邊緣到中位數距離。由于中位數是位置統計量,其值永遠在資料的中間,是以圖中資料很明顯呈現了左偏分布

圖中存在一個異常點,其值小于

sas univariate 結果解釋_SAS統計之描述性統計分析

3,數值型資料

1)極差:一組資料的最大值與最小值之差稱為極差,也成為全距,用R表示

sas univariate 結果解釋_SAS統計之描述性統計分析

2)方差和标準差方差:各變量與其平均數離差平方的平均數,其中樣本方差用

sas univariate 結果解釋_SAS統計之描述性統計分析

,總體方差用

sas univariate 結果解釋_SAS統計之描述性統計分析
sas univariate 結果解釋_SAS統計之描述性統計分析

标準差為方差開方,

3,标準分數:一組資料中各數值的相對位置。比如,如果某個數值的标準分數為-1.5,就知道該數值低于平均數1.5個标準差

sas univariate 結果解釋_SAS統計之描述性統計分析

4,經驗法則與切比雪夫不等式

對于對稱分布的資料,經驗法則告訴我們:

約有68%的資料在±1個标準差範圍内

約有95%的資料在±2個标準差範圍内

約有99%的資料在±3個标準差範圍内

對于偏态分布的資料,我們根據切比雪夫不等式可知至少有

sas univariate 結果解釋_SAS統計之描述性統計分析

的資料落在±k個标準差範圍内,其中k>1的整數:

至少有75%的資料落在±2個标準差範圍内

至少有89%的資料落在±3個标準差範圍内

至少有94%的資料落在±4個标準差範圍内

5,相對離散系數(變異系數):對于平均水準不同或計量機關不同的多組資料間比較離散程度時,應使用離散系數

sas univariate 結果解釋_SAS統計之描述性統計分析

例如:已知某良種豬場長白成年母豬平均體重為190kg,标準差為10.5kg,而大約克成年母豬平均體重為196kg,标準差為8.5kg,試問兩個品種的成年母豬,那一個體重變異程度大。

此例觀測值雖然都是體重,機關相同,但它們的平均數不相同,隻能用變異系數來比較其變異程度的大小。

由于,長白成年母豬體重的變異系數:10.5 / 190 * 100% = 5.53%

大約克成年母豬體重的變異系數: 8.5 / 196 * 100% = 4.34%

是以,長白成年母豬體重的變異程度大于大約克成年母豬,故而養殖大約克成年母豬風險更為穩定。

三 下面我們闡述統計學的描述性分析怎麼在SAS内實作

1,means過程:資料集fiah包含了一個湖泊内的各種魚類身長,重量,寬度等特征的樣本,一共有7個變量,變量Species表示魚的種類,Weight表示魚的重量,Length1,Length2,Length3表示三種測量方法下的身長,Height表示魚的寬度,現在計算各個數量名額的均值,中位數,衆數,标準差,方差,變異系數和四分位數極差,部分資料表如下圖

sas univariate 結果解釋_SAS統計之描述性統計分析

SAS代碼為:

proc means data=sashelp.fish means std var cv range qrange;

title "Descriptive Statistics of Dispersion";

var weight length1 length2 length3 height width;

run;

代碼結果如下

sas univariate 結果解釋_SAS統計之描述性統計分析

檢視不同種類魚的重量均值是否存在差别,代碼為:

proc means data=sashelp.fish mean;

title "Descriptive Statistics of Tendency Using Class";

var weight;

class species;

run;

引入分類語句class,結果如下:

sas univariate 結果解釋_SAS統計之描述性統計分析

2,univariate過程:該功能與means功能一緻,除此之外,還可以繪制直方圖,更直覺的得出變量的分布情況,一般文法如下:

Proc univariate data=資料集;

Var 分析變量;

Histogram 分析變量;

Probplot 分析變量;

Inset 統計量關鍵詞;

Run;

其中:

var語句用來分析指定變量,如果沒有var語句,系統将分析所有數值型變量

Histogram語句針對特定的變量繪制直方圖,也可以使用選項 normal做出正态分布圖

Probplot語句可以指定做出機率圖,比較資料是否符合某一已知分布,如正态分布,二項分布,泊松分布等

Inset語句可以在univariate過程做出的圖形上編著統計量計算量

舉例:檢視資料集fish中種類為Bream的魚類寬度是否接近正态分布,代碼如下:

proc univariate data=sashelp.fish plot ;

where species="Bream";

title "Descriptive Statistics Using Proc Univariate";

var height;

histogram /normal(mu=est sigma=est) kernel;

inset skewness kurtosis/ position=ne;

run;

代碼結果如下圖

sas univariate 結果解釋_SAS統計之描述性統計分析
sas univariate 結果解釋_SAS統計之描述性統計分析
sas univariate 結果解釋_SAS統計之描述性統計分析
sas univariate 結果解釋_SAS統計之描述性統計分析
sas univariate 結果解釋_SAS統計之描述性統計分析

分析報表發現:

1)資料均值為15.18,和中位數14.95很接近,說明該種類魚的寬度分布基本是對稱的

2)偏度系數為0.2417,說明該釋出有輕微又偏的趨勢

3)峰度系數為—0.5914,說明相較于正态分布,該分部的峰部較為平緩,沒有厚尾特征

4)從正态機率圖可以看出,散點基本在拟合的直線周圍,說明該分布符合正态分布

5)直方圖可以看出,大概45%的資料在中間的兩個矩形中,該分布也比較近似符合正态分布

6)最後做了正态分布的檢驗,在後續假設檢驗中在詳細講解

本文講解了統計學基本的描述性統計分析在SAS軟體内的實作方法與案例解讀,下篇文章将講解參數估計和假設檢驗的概念