繼續上一章節繼續寫,從資料統計常識開始
資料統計常識
Quartiles, outliers and boxplots
四分位數 Quartiles: Q1(25th percentile), Q3(75th percentile)
四位分數極差 Inter-quartile range: IQR = Q3 –Q1
五數概括 Five number summary: min, Q1, median,Q3, max
盒圖 Boxplot: 分布直覺表示,展現五數概括
離群點 Outlier: 第三個四分位數之上或者第一個四分位數之下至少1.5 x IQR的值
Variance and standard deviation (sample: s, population: σ)
方差 Variance:
标準差 Standard deviation 方差的平方根
盒圖
五數概括:Minimum, Q1, Median, Q3, Maximum
盒的端點在四分位數上,使得盒長度為四分位數極差IQR
中位數用盒内線标記
盒外線延伸到最小和最大的觀測值
3-D盒圖
基本的統計圖
盒圖 Boxplot: 五數概括
直方圖 Histogram: x-axis 數值大小, y-axis 頻率
分位數圖 Quantile plot: 觀測單變量資料分布,x1最小xn最大
分位數-分位數圖 Quantile-quantile (q-q) plot: 兩個觀測集,觀察一個分布到另一個
分布是否漂移
散點圖 Scatter plot: 每個值視作一個坐标對,作為一個點畫在平面上
分位數圖
顯示給定屬性所有資料
繪制分位數資訊
增序排列,每個觀測值xi與一個百分數fi 配對,百分比0.5對應中位數,0.75對應Q3
分位數-分位數圖
對着另一個對應的分位數,繪制一個單變量分布的分位數
使得使用者可以觀測從一個分布到另一個分布
X,Y軸分别代表不同的觀測集,存在兩個觀測集的值的個數不一緻時,不是所有的值都被表示
散點圖
确定兩個數值變量之間看上去是否存在聯系
觀察雙變量資料的有用的方法