sas univariate 結果解釋_SAS統計之描述性統計分析

本文來闡述統計學基本的描述性統計分析在SAS軟體内的實作方法與案例解讀，首先大概過一遍統計學基本的描述性統計。

描述性統計就是利用手裡已有的資料，分析資料的集中趨勢和離散趨勢，總體來說在統計學内資料可以分為以下三種類型：

一：分類資料，又名定性資料或者品質資料。這是一種非數字型資料。比如人口按照性别分可以分為男、女，企業可以按照行業屬性分為：網際網路企業、醫藥企業、家電企業等等。當然日常統計中為了友善起見，我們可以将這些變量賦予一個不支援加減乘除運算的數字(這兒說的不支援是因為對其進行加減乘除沒有什麼實際意義)，例如人口按照性别分類中我們可以将男記為0，女記為1(當然反過來男1女0也是可以的)。

二：順序資料。它是分類資料的一種，但是！！！它的變量是有順序的，或者說它的變量是有重要和不重要之分的！！例如，一個學生的考試成績我們可以用：優、良、中、及格、不及格來表示，這兒有着明顯的主次順序，即優>良>中>及格>不及格（當然你想反過來不及格<及格...）也沒問題。同樣在日常的統計中，為了友善(反正就一個原則，怎麼友善怎麼來),将其賦予一個不支援加減乘除運算的數字，優——1，良——2，中——3，及格——4，不及格——5。

三：數值型資料，又名定量資料，其變量為數值形式的變量。故名思意，這是一種數值資料。而數值型資料中的變量又可以分為兩類：

1，離散型變量

這些變量一般以整數的形式出現，可以一一列舉。舉個簡單的例子：不同城市的企業數量，這些資料一定是數值型資料，這就是離散型變量，它的特點是你隻能取它的整數值，也就是說你可以說其中一個城市有100家企業，但是你要是說這個城市有100.5家企業，這就沒有什麼意義了，因為我們都知道0.5家企業這是不存在的。同理的還有産品數量、汽車産量等等。

2,，連續型變量

與離散型變量相對應，這些變量可以取小數部分。比如一個城市所有人的平均身高，它可以是175cm，也可以是175.1cm或者175.2cm，這都是沒問題的。這一類連續變化的變量我們就稱之為連續型變量。

接下來介紹資料集中趨勢和資料離散趨勢的度量方法。

一：資料的集中趨勢

1，衆數：一組資料中出現最多的變量即為衆數。

2，分位數：常用的有中位數（即二分位數）、四分位數、百分位數等，定義為分位數(n分位數)通過n-1個資料點将我們的資料平均分為了n份

3，平均數：平均數可以分為三類

1）簡單平均數：公式為

sas univariate 結果解釋_SAS統計之描述性統計分析

2）權重平均數（針對分組資料），公式為

sas univariate 結果解釋_SAS統計之描述性統計分析

這兒的 Mi 指的是分組資料第 i 組的中位數, fi 為頻數

3）幾何平均數，公式為

sas univariate 結果解釋_SAS統計之描述性統計分析

衆數，中位數，平均數之間顯示資料的集中趨勢與分布，如下圖所示

sas univariate 結果解釋_SAS統計之描述性統計分析

二：資料的離散趨勢

離散趨勢，就是資料的分散程度，一下按照資料類型進行闡述

1.分類資料

分類資料的集中趨勢可以使用衆數來表示，離散趨勢也與衆數有關，統計學内有一個名為異衆比率的值來描述我們分類資料的分散程度。定義如下：

異衆比率指的是總體中非衆數次數與總體全部次數之比，常常使用Vr來表示

假設我們有N個樣本值，樣本存在一個衆數c，且衆數的個數為n，則我們的異衆比率

sas univariate 結果解釋_SAS統計之描述性統計分析

當N不變時，衆數的個數（頻數）n越大，異衆比率越小，資料越往衆數這個值集中。

2，順序資料

順序資料由于存在衆數與分位數兩種集中趨勢的度量，故而我們可以使用異衆比率來描述其離散趨勢，也可以使用四分位距來表示資料的離散程度：四分位距（interquartile range, IQR），又稱四分差。是描述統計學中的一種方法，以确定第三四分位數(上分位數)和第一二分位數(下分位數)的差別。

sas univariate 結果解釋_SAS統計之描述性統計分析

箱線圖形狀如下圖所示：

sas univariate 結果解釋_SAS統計之描述性統計分析

上圖中我們可以得到如下資訊：

由于我們的四分位距IQR中集中了我們50%的資料，是以箱線圖的寬度越大（IQR越大），則我們的資料越分散，是以圖中資料相對較為集中；

上邊緣到中位數距離小于下邊緣到中位數距離。由于中位數是位置統計量，其值永遠在資料的中間，是以圖中資料很明顯呈現了左偏分布

圖中存在一個異常點，其值小于

sas univariate 結果解釋_SAS統計之描述性統計分析

3，數值型資料

1）極差：一組資料的最大值與最小值之差稱為極差，也成為全距，用R表示

sas univariate 結果解釋_SAS統計之描述性統計分析

2）方差和标準差方差：各變量與其平均數離差平方的平均數，其中樣本方差用

sas univariate 結果解釋_SAS統計之描述性統計分析

，總體方差用

sas univariate 結果解釋_SAS統計之描述性統計分析

标準差為方差開方，

3，标準分數：一組資料中各數值的相對位置。比如，如果某個數值的标準分數為-1.5，就知道該數值低于平均數1.5個标準差

sas univariate 結果解釋_SAS統計之描述性統計分析

4，經驗法則與切比雪夫不等式

對于對稱分布的資料，經驗法則告訴我們：

約有68%的資料在±1個标準差範圍内

約有95%的資料在±2個标準差範圍内

約有99%的資料在±3個标準差範圍内

對于偏态分布的資料，我們根據切比雪夫不等式可知至少有

sas univariate 結果解釋_SAS統計之描述性統計分析

的資料落在±k個标準差範圍内,其中k>1的整數：

至少有75%的資料落在±2個标準差範圍内

至少有89%的資料落在±3個标準差範圍内

至少有94%的資料落在±4個标準差範圍内

5，相對離散系數（變異系數）：對于平均水準不同或計量機關不同的多組資料間比較離散程度時，應使用離散系數

sas univariate 結果解釋_SAS統計之描述性統計分析

例如：已知某良種豬場長白成年母豬平均體重為190kg，标準差為10.5kg，而大約克成年母豬平均體重為196kg，标準差為8.5kg，試問兩個品種的成年母豬，那一個體重變異程度大。

此例觀測值雖然都是體重，機關相同，但它們的平均數不相同，隻能用變異系數來比較其變異程度的大小。

由于，長白成年母豬體重的變異系數：10.5 / 190 * 100% = 5.53%

大約克成年母豬體重的變異系數： 8.5 / 196 * 100% = 4.34%

是以，長白成年母豬體重的變異程度大于大約克成年母豬，故而養殖大約克成年母豬風險更為穩定。

三下面我們闡述統計學的描述性分析怎麼在SAS内實作

1，means過程：資料集fiah包含了一個湖泊内的各種魚類身長，重量，寬度等特征的樣本，一共有7個變量，變量Species表示魚的種類，Weight表示魚的重量，Length1，Length2，Length3表示三種測量方法下的身長，Height表示魚的寬度，現在計算各個數量名額的均值，中位數，衆數，标準差，方差，變異系數和四分位數極差，部分資料表如下圖

sas univariate 結果解釋_SAS統計之描述性統計分析

SAS代碼為：

proc means data=sashelp.fish means std var cv range qrange;

title "Descriptive Statistics of Dispersion";

var weight length1 length2 length3 height width;

run;

代碼結果如下

sas univariate 結果解釋_SAS統計之描述性統計分析

檢視不同種類魚的重量均值是否存在差别，代碼為：

proc means data=sashelp.fish mean;

title "Descriptive Statistics of Tendency Using Class";

var weight;

class species;

run;

引入分類語句class，結果如下：

sas univariate 結果解釋_SAS統計之描述性統計分析

2，univariate過程：該功能與means功能一緻，除此之外，還可以繪制直方圖，更直覺的得出變量的分布情況，一般文法如下：

Proc univariate data=資料集；

Var 分析變量；

Histogram 分析變量；

Probplot 分析變量；

Inset 統計量關鍵詞；

Run；

其中：

var語句用來分析指定變量，如果沒有var語句，系統将分析所有數值型變量

Histogram語句針對特定的變量繪制直方圖，也可以使用選項 normal做出正态分布圖

Probplot語句可以指定做出機率圖，比較資料是否符合某一已知分布，如正态分布，二項分布，泊松分布等

Inset語句可以在univariate過程做出的圖形上編著統計量計算量

舉例：檢視資料集fish中種類為Bream的魚類寬度是否接近正态分布，代碼如下：

proc univariate data=sashelp.fish plot ;

where species="Bream";

title "Descriptive Statistics Using Proc Univariate";

var height;

histogram /normal(mu=est sigma=est) kernel;

inset skewness kurtosis/ position=ne;

run;

代碼結果如下圖

sas univariate 結果解釋_SAS統計之描述性統計分析

分析報表發現：

1）資料均值為15.18，和中位數14.95很接近，說明該種類魚的寬度分布基本是對稱的

2）偏度系數為0.2417，說明該釋出有輕微又偏的趨勢

3）峰度系數為—0.5914，說明相較于正态分布，該分部的峰部較為平緩，沒有厚尾特征

4）從正态機率圖可以看出，散點基本在拟合的直線周圍，說明該分布符合正态分布

5）直方圖可以看出，大概45%的資料在中間的兩個矩形中，該分布也比較近似符合正态分布

6）最後做了正态分布的檢驗，在後續假設檢驗中在詳細講解

本文講解了統計學基本的描述性統計分析在SAS軟體内的實作方法與案例解讀，下篇文章将講解參數估計和假設檢驗的概念