天天看點

資料分析(一)認識資料(二)

繼續上一章節繼續寫,從資料統計常識開始

資料統計常識

Quartiles, outliers and boxplots

四分位數 Quartiles: Q1(25th percentile), Q3(75th percentile)
四位分數極差 Inter-quartile range: IQR = Q3 –Q1
五數概括 Five number summary: min, Q1, median,Q3, max
盒圖 Boxplot: 分布直覺表示,展現五數概括
離群點 Outlier: 第三個四分位數之上或者第一個四分位數之下至少1.5 x IQR的值
           

Variance and standard deviation (sample: s, population: σ)

方差 Variance:
标準差 Standard deviation 方差的平方根
           
盒圖
五數概括:Minimum, Q1, Median, Q3, Maximum 
盒的端點在四分位數上,使得盒長度為四分位數極差IQR
中位數用盒内線标記
盒外線延伸到最小和最大的觀測值
           

3-D盒圖

資料分析(一)認識資料(二)

基本的統計圖

盒圖 Boxplot: 五數概括
直方圖 Histogram: x-axis 數值大小, y-axis 頻率
分位數圖 Quantile plot: 觀測單變量資料分布,x1最小xn最大
分位數-分位數圖 Quantile-quantile (q-q) plot: 兩個觀測集,觀察一個分布到另一個
分布是否漂移
散點圖 Scatter plot: 每個值視作一個坐标對,作為一個點畫在平面上
           

分位數圖

顯示給定屬性所有資料
繪制分位數資訊
增序排列,每個觀測值xi與一個百分數fi 配對,百分比0.5對應中位數,0.75對應Q3
           
資料分析(一)認識資料(二)

分位數-分位數圖

對着另一個對應的分位數,繪制一個單變量分布的分位數
使得使用者可以觀測從一個分布到另一個分布
X,Y軸分别代表不同的觀測集,存在兩個觀測集的值的個數不一緻時,不是所有的值都被表示
           
資料分析(一)認識資料(二)
散點圖
确定兩個數值變量之間看上去是否存在聯系
觀察雙變量資料的有用的方法
           
資料分析(一)認識資料(二)

繼續閱讀