天天看點

轉載-matlab的基本統計量

轉載自 https://blog.csdn.net/weixin_47005624/article/details/105467005?biz_id=102&utm_term=%E5%81%8F%E5%BA%A6%20%E5%B3%B0%E5%BA%A6%20matlab&utm_medium=distribute.pc_search_result.none-task-blog-2allsobaiduweb~default-0-105467005&spm=1018.2118.3001.4449

感謝部落客 :熱豆漿不加糖

下面是原部落格

MATLAB 2.1.1 一維樣本資料的基本統計量

描述資料的基本特征主要為集中位置和分散程度

1.均值、中位數、分位數與三均值

以下的X均表示為樣本資料

均值:描述了資料取值的集中趨勢,易受異常值的影響而不穩健。

m=mean(X);
           

中位數:描述資料的中心位置的數字特征,比中位數大或小的資料個數大約為樣本容量的一半。受異常值的影響小,具有較好的穩健性。

MD=median(X);
           

分位數:p=0.5時,表示資料的0.5分位數,即等于中位數。

0.75分位數與0.25分位數比較常用。分别稱為上、下四分位數。

Mp=prctile(X,P);
           

P為介于0~100之間的整數,P=100*p,輸出Mp為P%分位數

三均值:為了兼顧均值和中位數的優勢,提出三均值概念。是上四分位數、中位數與下四分位數的權重平均。

w=[0.25,0.5,0.25];
SM=w*prctile(X,[25;50;75]);
           

2.方差、變異系數與高階矩

以下的X均表示為樣本資料

方差:描述資料取值分散性的一種度量。

S=var(X,flag);
           

flag為可選項,預設取0。若flag取1,表示未修正樣本方差。

标準差:方差的算術平方根

d=std(X,flag);
           

flag為可選項,預設取0。若flag取1,表示未修正樣本标準差。

變異系數:描述資料相對分散性的統計量,是一個無量綱的量,一般用百分數表述。

v=std(X)./abs(mean(x));
           

高階矩:程式設計計算k階原點矩與中心距為

ak=mean(X.^k); %k階原點矩
bk=mean((X-mean(X)).^k); %k階中心距
           

MATLAB提供中心距指令moment,調用格式為:

bk=moment(X,k);
           

3.樣本的極差與四分位極差

以下的X均表示為樣本資料

極差:較簡單的表示資料分散性的數字特征

R=range(X);
           

四分位極差:度量資料分散性的一個重要數字特征

R1=iqr(X);
           

4.偏度與峰度

以下的X均表示為樣本資料

偏度:用于衡量分布的非對稱程度或偏斜程度的數字特征。

sk=skewness(X,flg);
           

flg系統預設為1.flg=0是修正的偏度;flg=1是按(2.1.14b)計算偏度。

sk>0時,資料分布右偏,右邊的資料更散; sk<0時,資料分布左偏,左邊的資料更散;sk接近于0時,稱分布無偏倚即認為分布是對稱的。

正态分布的樣本資料的偏度接近于0,當樣本資料的偏度與零相差較大,則可初步拒絕樣本資料來自于正态分布總體。

峰度:用來衡量資料尾部分散性的名額。當資料的總體分布是正态分布時,峰度近似為0。

ku=kurtosis(X,flg)-3;
           

flg系統預設為1.flg=0是修正的峰度;flg=1是按(2.1.15b)計算峰度。

另外:熵的計算也加上

資訊熵”解決資訊的量化度量問題。資訊熵這個詞是C.E.Shannon(香農)從熱力學中借用過來的。熱力學中的熱熵是表示分子狀态混亂程度的實體量。香農用資訊熵的概念來描述信源的不确定度

en=entropy(X);
           

繼續閱讀