天天看點

統計學:探索性資料分析1. 結構化資料的組成2. 矩形資料3. 位置估計4. 變異性估計5. 探索資料分布6. 探索二進制資料和分類資料7. 相關性

探索性資料分析

  • 1. 結構化資料的組成
  • 2. 矩形資料
  • 3. 位置估計
    • 3.1 均值
    • 3.2 中位數和穩健估計量
  • 4. 變異性估計
    • 4.1 标準偏差及相關估計值
    • 4.2 基于百分位數的估計量
  • 5. 探索資料分布
  • 6. 探索二進制資料和分類資料
  • 7. 相關性

1. 結構化資料的組成

如何将大量的原始資料轉化為可操作的資訊,是資料科學所面對的主要挑戰

  • 連續型資料:資料可在一個區間内任意取值
  • 離散型資料:資料隻能取整數,如計數
  • 分類型資料:資料隻能從特定集合中取值,表示一系列可能的分類,即常說的枚舉資料
  • 二進制資料:分類資料的特殊情況,資料值隻能從兩個值中取其一,如布爾資料
  • 有序資料:具有明确排序的分類資料

    結構化資料分兩種,數值型資料和分類型資料,前者包含連續和離散型。

2. 矩形資料

  • 矩形資料對象是資料科學分析中的典型引用結構,包括電子表格、資料庫表等,稱為資料框,其中包含資料特征(通常為 1 列),資料結果。其中一行為一條記錄。資料框還包含索引
  • 非矩形資料結構:主要包含時序資料,空間資料,圖形(網絡)資料

3. 位置估計

擷取資料的“典型值”

3.1 均值

  • 均值(np.mean(), df.mean()),即算術平均值:

    x ‾ = ∑ i = 1 n x i n \overline{x} = \frac{\sum_{i=1}^n{x_i}}{n} x=n∑i=1n​xi​​

  • 切尾均值,即去除 p 個最大值和 p 個最小值後的算數平均值,設有一個由小到大排序的有序資料集 X = { x 1 , x 2 , . . . , x n } X=\{x_1, x_2, ..., x_n\} X={x1​,x2​,...,xn​}:

    x ‾ = ∑ i = p + 1 n − p x i n − 2 p \overline{x} = \frac{\sum_{i=p+1}^{n-p}{x_i}}{n-2p} x=n−2p∑i=p+1n−p​xi​​

  • 權重均值(np.average()),即權重平均值:

    x w ‾ = ∑ i = 1 n w i x i ∑ i n w i \overline{x_w} = \frac{\sum_{i=1}^{n}{w_ix_i}}{\sum_{i}^{n}{w_i}} xw​​=∑in​wi​∑i=1n​wi​xi​​

3.2 中位數和穩健估計量

  • 中位數(np.median, df.median):位于有序資料集中間位置處的數值,若數值的個數為偶數,則為中間位置的兩個值的均值
  • 權重中位數:使有序資料集上下兩部分的權重總和相同的值
  • 中位數對離群值不敏感
  • 離群值:距離資料集中其他所有值都很遠的值

4. 變異性估計

變異性也稱為離差,是用來測量資料值是緊密聚集的還是發散的

4.1 标準偏差及相關估計值

  • 偏差:各資料與均值的偏差,偏差的總和為 0

    Δ i = x i − x ‾ \Delta_i = x_i - \overline{x} Δi​=xi​−x

  • 平均絕對偏差(df.mad):偏差絕對值的算數平均

    Δ ‾ = ∑ i = 1 n ∣ x i − x ‾ ∣ n \overline{\Delta} = \frac{\sum_{i=1}^n{|x_i-\overline{x}|}}{n} Δ=n∑i=1n​∣xi​−x∣​

  • 方差(np.var, df.var):偏差平方的算數平均(其中 n-1 涉及自由度的概念,對于大量資料集,n-1 和 n 相差不大)

    s 2 = ∑ i = 1 n ( x i − x ‾ ) 2 n − 1 s^2 = \frac{\sum_{i=1}^n{(x_i-\overline{x})^2}}{n-1} s2=n−1∑i=1n​(xi​−x)2​

  • 标準差(np.std, df.std):方差的平方根

    s 2 = ∑ i = 1 n ( x i − x ‾ ) 2 n − 1 s^2 =\sqrt{ \frac{\sum_{i=1}^n{(x_i-\overline{x})^2}}{n-1}} s2=n−1∑i=1n​(xi​−x)2​

  • 以上估計值都是對離群值敏感的
  • 中位數絕對偏差對離群值不敏感,設 m 為中位數:

    M A D = 中 位 數 ( ∣ x 1 − m ∣ , ∣ x 2 − m ∣ , . . . , ∣ x n − m ∣ ) MAD=中位數(|x_1 - m|, |x_2 - m|, ... , |x_n - m|) MAD=中位數(∣x1​−m∣,∣x2​−m∣,...,∣xn​−m∣)

4.2 基于百分位數的估計量

基于有序資料的統計量被稱為順序統計量

  • 極差:最大值和最小值的差: m a x − m i n max - min max−min
  • 百分位數、分位數(np.quantile, df.quantile):第 P 百分位數表明,至少有 P% 的值小于或等于該值
  • 四分位距:上四分位數和下四分位數的差

5. 探索資料分布

  • 百分位數和箱線圖(Series.plot(), df.plot(), df.boxplot(), seaborn.cataplot(), seaborn.boxplot(), plt.axes.boxplot()…):包含了上下四分位數,中位數,最大值和最小值
  • 頻數表和直方圖(plt.hist(), Series.plot.hist()…):x 為組距,y 為資料的計數
  • 統計學的矩:位置為一階矩,變異性為二階矩,偏度(資料偏向較小值還是較大值)為三階矩,峰度(資料中具有極值的傾向性)為四階矩
  • 密度估計(Series.plot.density()…):用一條連續的線顯示資料值的分布情況(可以看做是直方圖平滑得到的)

6. 探索二進制資料和分類資料

  • 衆數:資料集中出現次數最多的類别或值
  • 期望值:如果類别可以與一個數值相關聯,可以根據類别的出現機率計算一個平均值,期望值是一種權重均值,權重使用的是類别出現的機率
  • 條形圖(plt.bar(), Series.plot.bar()…):x 無意義,僅代表類别,y 軸為頻數或頻率
  • 餅圖(plt.pie(), Series.plot.pie()…):扇形表示頻數或頻率

7. 相關性

  • 相關系數:測量數值變量間相關程度的度量,取值範圍為 [-1, 1],-1 為完全負相關,1 為完全正相關,0 為不相關。皮爾遜相關系數計算公式如下: r = ∑ i = 1 N ( x i − x ‾ ) ( y i − y ‾ ) ( n − 1 ) s x s y r = \frac{\sum_{i=1}^N(x_i-\overline{x})(y_i-\overline{y})}{(n-1)s_xs_y} r=(n−1)sx​sy​∑i=1N​(xi​−x)(yi​−y​)​
  • 相關矩陣(np.corrcoef(), df.corr()):由相關系數組成的矩陣,可使用熱力圖表示
  • 散點圖(plt.scatter(), df.plot(kind=‘scatter’), sns.pairplot()散點圖矩陣…):x 為一個變量, y 為另一個變量

繼續閱讀