關聯性——相關性分析

2023-06-24 23:45:59

1、作用

相關分析是對變量兩兩之間的相關程度進行分析。相關分析的計算方式有三種，分别是 Pearson 相關系數（适用于定量資料，且資料滿足正态分布）、Spearman 相關系數（資料不滿足正态分布時或者定序資料使用）、kappa一緻性檢驗（定類變量）

2、輸入輸出描述

輸入：兩個或者兩個以上的定量變量或定序變量

輸出：兩兩變量之間是否呈現顯著性相似以及相似的程度

3、案例示例

人的身高和體重之間；空氣中的相對濕度與降雨量之間的相關關系都是相關分析研究的問題

關聯性——相關性分析

4、變量類型

1.定類變量：隻能區分為某一類别，類别平等

2.定序變量：隻能區分為某一類别，類别有序

3.定量變量：可以用具體數值表示

4.定比變量：可以用具體數值表示，存在零點。定比變量各類别之間的距離，不僅能用加減而且能用乘除或倍數形式來說明它們之間的關系

5、模組化步驟

皮爾遜相關系數

兩個變量之間的皮爾遜相關系數定義為兩個變量之間的協方差和标準差的商：

關聯性——相關性分析

上式定義了總體相關系數，常用希臘小寫字母

關聯性——相關性分析

作為代表符号。估算樣本的協方差和标準差，可得到皮爾遜相關系數，常用英文小寫字母r代表：

關聯性——相關性分析

r亦可由

關聯性——相關性分析

樣本點的标準分數均值估計，得到與上式等價的表達式：

關聯性——相關性分析

其中

關聯性——相關性分析

、

關聯性——相關性分析

及

關聯性——相關性分析

分别是對

關聯性——相關性分析

樣本的标準分數、樣本平均值和樣本标準差。

斯皮爾曼相關系數

斯皮爾曼相關系數被定義成等級變量之間的皮爾遜相關系數。對于樣本容量為n的樣本，n個原始資料被轉換成等級資料，相關系數

關聯性——相關性分析

為:

關聯性——相關性分析

為

關聯性——相關性分析

的等級差，

關聯性——相關性分析

位于(-1,1)之間。

kappa 系數

kappa系數是一種衡量分類精度的名額。它是通過把所有地表真實分類中的像元總數（N）乘以混淆矩陣對角線（Xkk）的和，再減去某一類地表真實像元總數與該類中被分類像元總數之積對所有類别求和的結果，再除以總像元數的平方減去某一類地表真實像元總數與該類中被分類像元總數之積對所有類别求和的結果所得到的。

關聯性——相關性分析

其中，P0是每一類正确分類的樣本數量之和除以總樣本數，也就是總體分類精度。

假設每一類的真實樣本個數分别為a1,a2,...,aC，而預測出來的每一類的樣本個數分别為b1,b2,...,bC

總樣本個數為n，則有：

關聯性——相關性分析

關聯性——相關性分析

1、作用

2、輸入輸出描述

3、案例示例

4、變量類型

5、模組化步驟

繼續閱讀

疾病研究：重症肌無力

Nacos 2.0 更新前後性能對比壓測

人工智能如何有效地運用于自然語言處理

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

9.spark Core 進階2--Cashe

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

無人機--飛控科普

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark