天天看點

《R語言資料分析與挖掘實戰》——3.3 R語言主要資料探索函數

本節書摘來自華章計算機《r語言資料分析與挖掘實戰》一書中的第3章,第3.3節,作者 張良均,雲偉标,王路,劉曉勇,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

r提供了大量的與資料探索相關的函數,這些資料探索函數可大緻分為統計特征函數與統計作圖函數。本小節對r中主要的統計特征函數與統計作圖函數進行介紹,并舉例以友善了解。

統計特征函數用于計算資料的均值、方差、标準差、分位數、相關系數、協方差等,這些統計特征能反映出資料的整體分布。本小節所介紹的統計特征函數如表3-7所示。

《R語言資料分析與挖掘實戰》——3.3 R語言主要資料探索函數

(1)mean

功能:計算資料樣本的算術平均數。

使用格式:

《R語言資料分析與挖掘實戰》——3.3 R語言主要資料探索函數

計算樣本x的均值n,樣本x可為向量、矩陣或多元數組。

(2)exp(mean(log())

功能:計算資料樣本的幾何平均數。

《R語言資料分析與挖掘實戰》——3.3 R語言主要資料探索函數

計算樣本x的幾何均值n,樣本x可為向量、矩陣或多元數組。

(3)var

功能:計算資料樣本的方差。

《R語言資料分析與挖掘實戰》——3.3 R語言主要資料探索函數

計算樣本x的方差v。若x為向量,則計算向量的樣本方差。若x為矩陣,則v為x的各列向量的樣本方差構成的行向量。

(4)sd

功能:計算資料樣本的标準差。

《R語言資料分析與挖掘實戰》——3.3 R語言主要資料探索函數

計算樣本x的标準差,若樣本x為向量,則計算向量的标準差。若x為矩陣,則s為x的各列向量的标準差構成的行向量。

(5)cor

功能:計算資料樣本的相關系數矩陣。

《R語言資料分析與挖掘實戰》——3.3 R語言主要資料探索函數

計算列向量x、y的相關系數矩陣r。其中,name和value的取值如表3-8所示。

《R語言資料分析與挖掘實戰》——3.3 R語言主要資料探索函數

執行個體:計算兩個列向量的相關系數,采用spearman方法。

《R語言資料分析與挖掘實戰》——3.3 R語言主要資料探索函數

(6)cov

功能:計算資料樣本的協方差矩陣。

《R語言資料分析與挖掘實戰》——3.3 R語言主要資料探索函數

計算樣本x的協方差矩陣r。樣本x可為向量或矩陣。當x為向量時,r表示x的方差。當x為矩陣時,cov(x)計算方差矩陣。

《R語言資料分析與挖掘實戰》——3.3 R語言主要資料探索函數

函數等價于cov([x,y])。參數x、y為長度相等的列向量。

執行個體:計算20×5随機矩陣的協方差矩陣。

《R語言資料分析與挖掘實戰》——3.3 R語言主要資料探索函數

(7)moment

功能:計算資料樣本的指定階中心矩。

《R語言資料分析與挖掘實戰》——3.3 R語言主要資料探索函數

計算樣本x的order階次的中心矩m,參數order為正整數。樣本x可為向量、矩陣或多元數組。

說明:一階中心矩為0,二階中心矩為用除數n得到的方差,其中n為向量x的長度或矩陣x的行數。使用此函數要加載e1071包。

執行個體:計算100個随機數的2階中心矩。

《R語言資料分析與挖掘實戰》——3.3 R語言主要資料探索函數

通過統計作圖函數繪制的圖表可以直覺地反映出資料及統計量的性質及其内在規律,如盒圖可以表示多個樣本的均值,誤差條形圖能同時顯示下限誤差和上限誤差,最小二乘拟合曲線圖能分析兩變量間的關系。本小節所介紹的統計作圖函數如表3-9所示。

《R語言資料分析與挖掘實戰》——3.3 R語言主要資料探索函數

(1)barplot

功能:繪制簡單條形圖。

《R語言資料分析與挖掘實戰》——3.3 R語言主要資料探索函數

繪制矩陣樣本x的分類條形圖,x是一個向量或者矩陣。其中,參數horiz是邏輯值,預設為false,改成true圖形變為橫向條形圖,main、xlab、ylab分别表示圖形标題、橫軸和縱軸标題。

執行個體:繪制樣本資料的條形圖,樣本由“a”、“b”、“c”三種類型的随機資料組成。繪制結果如圖3-13所示。

《R語言資料分析與挖掘實戰》——3.3 R語言主要資料探索函數

(2)pie

功能:繪制餅形圖。

《R語言資料分析與挖掘實戰》——3.3 R語言主要資料探索函數

繪制矩陣x中非負資料的餅形圖。若x中非負元素和小于1,則函數僅畫出部分的餅形圖,且非負元素x(i,j)的值直接限定餅形圖中扇形的大小;若x中非負元素和大于等于1,則非負元素x(i,j)代表餅形圖中的扇形大小通過x(i,j)/y的大小來決定,其中,y為矩陣x中非負元素和。

執行個體:通過向量[1 3 1.5 4 1.5]畫餅形圖,并将第一部分分離出來。繪制結果如圖3-14所示。

《R語言資料分析與挖掘實戰》——3.3 R語言主要資料探索函數

(3)hist

功能:繪制二維條形直方圖,可顯示資料的分布情形。

《R語言資料分析與挖掘實戰》——3.3 R語言主要資料探索函數

把向量x中的數值自動分組,各組距相等,條形圖每一條的高度表示頻率或者頻數,預設freq=true,即畫出頻數條形圖,freq=false時繪出頻率條形圖。

執行個體:繪制二維條形直方圖,從1到999中随機抽取100個數,并對100取餘數,得到100個1到99之間的随機數,儲存在向量x中,對其繪制直方圖。繪制結果如圖3-15所示。

《R語言資料分析與挖掘實戰》——3.3 R語言主要資料探索函數

(4)boxplot

功能:繪制樣本資料的箱形圖。

《R語言資料分析與挖掘實戰》——3.3 R語言主要資料探索函數

繪制矩陣樣本x的箱形圖。其中,盒子的上、下四分位數和中值處有一條線段。箱形末端延伸出去的直線稱為須,表示盒外資料的長度。如果在須外沒有資料,則在須的底部有一點,點的顔色與須的顔色相同。其中,參數notch預設為false,如果改為true則繪制矩陣樣本x的帶刻槽的凹盒圖。和别的繪圖函數一樣,也可以給horizontal指派true,使圖形橫過來。

執行個體:繪制樣本資料的箱形圖,樣本由兩組正态分布的随機資料組成。其中,一組資料均值為5,方差為2,另一組資料均值為7,方差為4,并且分别補充兩個比較偏離均值的數,使圖中可以出現離群點。繪制結果如圖3-16所示。

《R語言資料分析與挖掘實戰》——3.3 R語言主要資料探索函數

(5)plot

功能:繪制線性二維圖、折線圖、散點圖。

《R語言資料分析與挖掘實戰》——3.3 R語言主要資料探索函數

繪制y對于x(即以x為橫軸的二維圖形),可以通過參數type指定繪制時圖形的類型、樣式,可以有“o”“l”“b”等,這三種分别表示散點、曲線和點線混合型。通過col參數可以設定多種顔色。

執行個體:在區間(0≤x≤2π)繪制一條藍色的正弦曲線,繪制圖形如圖3-17所示。

《R語言資料分析與挖掘實戰》——3.3 R語言主要資料探索函數

繼續閱讀