天天看點

《R語言與資料挖掘最佳實踐和經典案例》—— 3.2 探索單個變量

本節書摘來自華章出版社《r語言與資料挖掘最佳實踐和經典案例》一 書中的第3章,第3.2節,作者:(澳)yanchang zhao,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

每一個數值型變量的分布情況可以使用函數summary()進行檢視,該函數的傳回值是變量中的最小值、最大值、平均值、中位數、第一四分位數(25%)和第三四分位數(75%)。對于因子(或分類變量)而言,函數傳回的是每一個等級水準的頻數。

 

《R語言與資料挖掘最佳實踐和經典案例》—— 3.2 探索單個變量

平均值、中位數和極差也可以分别使用函數mean()、median()和range()擷取,擷取四分位數和百分位數可以使用quantile()函數,代碼如下所示。

《R語言與資料挖掘最佳實踐和經典案例》—— 3.2 探索單個變量
《R語言與資料挖掘最佳實踐和經典案例》—— 3.2 探索單個變量

接下來,使用函數var()檢視sepal.length的方差,并使用函數hist()繪制分布直方圖,使用函數density()計算密度估計值(見圖3-1和圖3-2)。

《R語言與資料挖掘最佳實踐和經典案例》—— 3.2 探索單個變量
《R語言與資料挖掘最佳實踐和經典案例》—— 3.2 探索單個變量

因子的頻數可以由函數table()計算,然後使用函數pie()繪制餅圖,或使用函數barplot()繪制條形圖(見圖3-3和圖3-4)。

《R語言與資料挖掘最佳實踐和經典案例》—— 3.2 探索單個變量
《R語言與資料挖掘最佳實踐和經典案例》—— 3.2 探索單個變量

繼續閱讀