天天看點

《R語言與資料挖掘最佳實踐和經典案例》—— 3.3 探索多個變量

本節書摘來自華章出版社《r語言與資料挖掘最佳實踐和經典案例》一 書中的第3章,第3.3節,作者:(澳)yanchang zhao,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

檢視了單個變量的分布後,還需要探索兩個變量之間的關系。下面我們使用函數cov()和cor()分别計算變量之間的協方差和相關系數。

《R語言與資料挖掘最佳實踐和經典案例》—— 3.3 探索多個變量
《R語言與資料挖掘最佳實踐和經典案例》—— 3.3 探索多個變量

接下來,使用函數aggregate()計算每一個鸢尾花種(species)的sepal.length的統計資料。

《R語言與資料挖掘最佳實踐和經典案例》—— 3.3 探索多個變量

然後,使用函數boxplot()繪制盒圖(又稱為盒形-虛線圖),以展示資料分布的中位數、第一四分位數和第三四分位數(即累積分布中的位于50%、25%、75%位置上的點),以及離群點。盒圖中間的橫線表示中位數。圖(3-5)顯示了四分位差(iqr),即第三四分位數(75%)與第一四分位數(25%)的內插補點。

《R語言與資料挖掘最佳實踐和經典案例》—— 3.3 探索多個變量
《R語言與資料挖掘最佳實踐和經典案例》—— 3.3 探索多個變量

下面使用函數plot()繪制兩個數值型變量的散布圖,使用函數with()後不需要在變量名前加上“iris$”字首。在下面的代碼中,各個資料點根據不同品種設定了不同的顔色(col)和标志(pch)。

《R語言與資料挖掘最佳實踐和經典案例》—— 3.3 探索多個變量

當資料量很大時,圖中的資料點可能會出現重疊。是以,在繪制散布圖前使用函數jitter()添加少量噪聲資料(見圖3-7)。

《R語言與資料挖掘最佳實踐和經典案例》—— 3.3 探索多個變量

散布圖矩陣由函數pairs()生成(見圖3-8)。

《R語言與資料挖掘最佳實踐和經典案例》—— 3.3 探索多個變量

繼續閱讀